ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [LLM 실험논문작성 1주] 인과추론 개요 및 논문작성 방법
    LLM study 2024. 3. 18. 15:50
    • Survivorship Bias: 생존자 편향의 오류
      살아남은 데이터만 가지고 분석했기 때문에 생기는 오류 

      cf. 바닥 신호등이 줄어들 예정: 도입하고 나니까,,, 아이들이 신호등 안보고 양옆을 안 봐서 더 사고율이 올라감


    📌데이터 분석은 패턴을 찾아줄 수 있으나, 이를 인과관계로 해석하는 건 사람의 몫


    상관성이 인과성으로 인정받으려면 다음의 세 가지 조건을 따라야 한다.

    1. 연속성을 의미하는 '원인'과 '결과'의 공동변화

    2. 시간적 선후관계

    3. 불면성을 보장하기 위한 외생변수의 제거(가장 어렵다)
    이유: 모든 변수를 통제하기 어려움
    사교육->공부를 잘한다? 실제로 성적이 올랐는데 실제로 학원에 가서 연애를 한 거임,,,
    • but 상관성을 인과성에 준하여 취급하며 의사결정을 내리는 것 또한 유의미함
      약한 인과성의 연결고리 존재 -> 실무에 도입을 진행 한 후에 현장에서 해석을 덧붙이는 경우도 종종 있음 

    📌실제 프로젝트 사례 

     

    🟢온 습도 데이터 활용, 심층 신경망 분석을 활용한 동적 캠페인 최적화

    가습기 판매량에 습도보다 기온이 유의미,,,? -> 
    숨은 외생변수가 있었음. 알고보니 기온이 낮으면 추워서 난방 많이 뗌 -> 건조해져서 사게 되는 로직,,,
    검증 위해 추운 날 캠페인을 했고, 좋은 결과를 얻었음

    🟢Garbage in, Garbage out

    "통계는 거짓말을 하지 않지만, 거짓말쟁이들은 통계를 쓸 수 있다."
    데이터가 오래 되고 많으면 수많은 패턴이 생김. 노이즈 패턴을 구분하는 것은 분석가의 몫


    🟢LLMOps

    *(참고)Vellum : 워크플로우 기반의 LLMOps 환경을 구현하는 도구, 계정 생성시 7일간 사용 가능
    * 연구할 때 쓰면 좋을 듯 


    🟢급할 때 논문 쓰는 방법

    • 논문에 꼭 들어가야 하는 표와 그림을 먼저 완성하고, 글을 나중에 채워넣기

    *리뷰연구&메타스터디(지금 llm이 어떻게 돌아가는지 정리 해줄게, 인용은 잘 되지만 썩 정성적으로 좋은 평가는 딱히) 
    -> 질적연구(복불복 심함, 아무도 안해본 연구, 황무지에 길을 내는 것...결론: 이런이런 변수가 이 변수에 영향을 줄 거에요-가설 모형)  
    -> 가설모형 & 전문가 인터뷰 (위의 output인 가설 모형을 보고 전문가 인터뷰(ahp)를 해서 검증 
    -> 행동(behavioral)리서치 & 인과추론 

    *핵심 가설, 착안점, 이론 정리하기, 개념적 프레임워크, 연구모형, 측정항목 정의하기
    - 착안점이 중요,,, 왜 내가 이 연구를 하고 싶어하는가? , 가설은 바뀔 수 있음
    *내적 타당성/외적 타당성/다중공선성/편향 고려 
    *핵심적인 표와 그림 완성하기, 모자라는건 채워줄 팀원들이 있음
    - 표랑 그림을 ppt랑 등등에 정리해놓고 "표3개,그림 5개" 나오면 끝나 라고 생각하자(not recommend but fast)

    🟢Mixed Method 혼합 연구 방법 예시 

    빅데이터 분석 방법론을 기존 연구 방법론에 추가하여 연구의 신뢰도를 높이는 방법
    (중간에 텍스트 분석을 해서 수치화한다거나 등등)

    # 리서치 모티베이션(착안점)
    ## LLM 이 인간의 행동에 영향을 얼마나 미칠 것인지?
    -> 생각보다 사람들은 LLM 말 잘 안듣네?

Designed by Tistory.