-
[ LLM실험논문작성 2주] 행동 데이터 분석&논문 작성법LLM study 2024. 3. 14. 22:47
* Behavioral Data Analysis with R and Python"
Source Code https://github.com/BuissonFlorent/BehavioralDataAnalysis/tree/master
인과 추론 2번째 시간!
LLM 실험연구를 할때 가장 먼저 해야 하는 것들 :
연구 주제: "스마트폰 중독이 연구 실적에 나쁜 영향을 미친다?의 상관관계 분석 " 을 하고자 할때
- 1. 관심 변수, 변수를 측정하는 항목(서베이 아이템), 이를 포괄하는 이론이 뭘까를 정해야 함
- ✨이론을 탄탄히! / 어떤 변수를 집중해서 볼 것 / A,B,C 변수의 관계에 있어 LLM이 어떤 영향을 줄 것인지?-> 연구 주제 구체화 가능✨
- 변수1 : {측정 항목1, 측정 항목2, 측정 항목3,...} <-이론 혹은 선행연구에서 가져옴
- 통계 모델을 돌려보니 측정항목 3개만 유의하더라,... 3개만 가지고 진행
- 항목들이 잘 안묶이거나 유의하지 않아 제외를 하는 경우가 생김
- 변수와의 관계성을 봄 (화살표 그리기 굉장히 어려움)
- A(원인) -> B(결과)
- A() -> | -> B() ( 사이에 C'가 관계에 영향을 미침) (C'를 통해서 일어나는 건지? C'가 영향을 주는 건지?)
- A() -> C() -> B()
- 그렇다면 ? 이론을 가져와서 개념적 프레임워크를 설계해라
- 기존 이론 + 추가 변수(새로운 것) -> 설문지 뿌리고 통계분석 나오면 그걸로 됨!
- 변수1 : {측정 항목1, 측정 항목2, 측정 항목3,...} <-이론 혹은 선행연구에서 가져옴
- ✨이론을 탄탄히! / 어떤 변수를 집중해서 볼 것 / A,B,C 변수의 관계에 있어 LLM이 어떤 영향을 줄 것인지?-> 연구 주제 구체화 가능✨
- 2. 연구 주제 구체화 후 실험 환경 -> LLM 만듬 (finetuning, RAG, 멀티에이전트?)
- 3. 유저, 응답자에게 실험을 시킴
논문에서는 어떻게 했을까?
- 이론적 배경: high level
- 왜 프라이버시 논문에 동기 이론을 썼나? -> 적합한 이론이 없어 근본적 이론으로 넘어갔다...
- 이런 챌린지를 받으면? -> 리뷰어 설득(잘 안됨,, 다른 저널 가자)
- 개념적 프레임워크: 세분화 레벨
- 구체화된 측정 항목을 넣는다
- 연구 모형 (가설)
- 변수들이 정/부의 영향을 준다.
- 연구 변수의 측정 항목
- 설문만 넣지 말고, 테스트 스코어 혹은 평가 지표도 넣는게 통과율이 올라감
- 인구통계학적 특성
- 특정 집단에서는 의미가 있었다!
- 통계 분석
- 다 유의미한 변수가 아니래,,, -> (흑마술) 측정항목을 많이 늘려라. 그렇다면 변수는 산다
- 흑마술 시 유의사항: 문항이 많아지면 응답률이 떨어진다...
- 다 유의미한 변수가 아니래,,, -> (흑마술) 측정항목을 많이 늘려라. 그렇다면 변수는 산다
- 가설 검증 및 결
행동 데이터 분석 핵심 요약
Chap 1. 인과-행동 프레임워크
✨인간의 행동을 변화시키려면 무엇이 행동을 유발하는지 이해가 필요
- 행동
- 인과 다이어그램
- 데이터
✨분석의 유형
- 기술 분석
- 예측 분석: 정확도가 짱...
- 인과 분석 : 목표변수 추정만이 목표가 아니다
- 측정값을 유도한 요인이 무엇인가에 초점
- A/B test
✨회귀 분석을 방해하는 교란
- 상관관계가 인과관계가 아닌 경우 (기온과 아이스크림 매출)
- 기온이 1도 오르니까 아이스크림 매출이 계속 늘어난다 -> 근데 예측을 잘 못함
- 아이스크림 매출 증가에 영향을 주는 여름방학의 효과를 기온에 의한 것처럼 해석한 오류
- 기온이 1도 오르니까 아이스크림 매출이 계속 늘어난다 -> 근데 예측을 잘 못함
- 교란을 해결하는 잠재적 방법?
- 외생 변수가 있는지 고민하는 방법밖에,,,
✨인과관계 다이어그램
- 관찰할 수 없는 변수가 존재하는 경우
- 더 어두운 색의 상자를 사용하여 변수를 표현
'LLM study' 카테고리의 다른 글
[LLM 실험논문작성 1주] 인과추론 개요 및 논문작성 방법 (0) 2024.03.18 - 1. 관심 변수, 변수를 측정하는 항목(서베이 아이템), 이를 포괄하는 이론이 뭘까를 정해야 함