-
[Back to the Basic] 검정Archive/통계&코딩이것저것 2021. 11. 25. 17:05
검정: 데이터 뒤에 숨어있는 변수의 분포에 대한 가설이 맞는지, 틀리는지 정량적으로 증명하는 과정
동전 15번중에 12번이 앞면이 나왔는데, 이걸 공정한 동전이라고 할 수 있을까? 따져봐야 하지 않을까?
어떤 회사의 일주일 수익률은 다음과 같다. -2.5,-5%, 4.3%, -3.7%, -5.6% . 모수가 양수인 주식일까?
귀무가설(Null Hypothesis)
가정을 하고 시작하는, 기준이 되는 가설
- 데이터가 어떤 확률변수의 표본이라고 가정한다
- 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수값 $\theta_0$ 로 고정되어 있다고 가정한다.
대립가설(Alternative hypothesis)
내가 주장하려는 가설, 증명하고 싶어하는 가설
$$H_a : \theta \neq \theta_0 \t \theta \>= \theta_0$$
검정통계량
귀무가설이 맞거나 틀렸다는 걸 증명하려면 어떤 증거가 있어야 한다.
- '어떤 병에 걸렸다' 라는 가설을 증명하려면 환자의 혈액을 채취하여 혈액 내의 특정한 성분의 수치를 측정해야 한다고 가정. 이때 해당 수치가 검정통계량이 됨
$$t=f(x_1,x_2,...,x_N)$$
- 검정통계량은 확률변수 X의 표본에서 계산된 함수의 값이므로 어떤 값이 나올지 정확하계 예측할 수 없음. 따라서 검정통계량 t도 검정통계량 확률변수 T라는 새로운 확률변수의 표본으로 볼 수 있다.
- 원 변수 X의 pdf로부터 T의 pdf를 수학적으로 계산해 낼 수 있음.
검정통계량 분포에서 검정통계량이 가능성 높은 값이 나올지, 가능성이 낮은 값이 나올지가 중요하다.
예를들어 동전이 fair하다고 가정했을때, 검정통계량 분포는 이렇게 나와야 되고 , 검정통계량 값 뽑아봤더니 해당 분포에서 많이 나오는 값이 나왔다-> 논리에 이상 없음!
근데 동전이 fair하다고 가정하고 값을 뽑아봤는데 검정통계량 분포에서 잘 안나오는 값이 나왔다?? 너무너무 가장자리에 있는 값이 나왔다..? 그렇다면 시작이(귀무가설이) 잘못된 거 아닐까?
근데 가능성이 높은지 낮은지는 , 가장자리에서 값이 나왔다는 건 어떻게 잴까?
유의확률
검정통계량을 기준으로 한 가장자리 면적! 이라고 하자.
귀무가설이 맞음에도 불구하고 현재 검정통계량과 같거나 혹은 대립가설을 더 지지하는 검정통계량값이 나올 확률
어떤 환자의 혈압이 고혈압이라는 것을 증명하고 싶을 때 귀무가설과 대립가설은:
- 귀무가설: '혈압이 정상이다'
- 대립가설: '고혈압이다'
이 검정에서 혈압 검사 결과를 통계량 분포로 하고, 해당 환자의 혈압을 검정통계량으로 사용하여 계산한 우측유의확률이 0.02% 이 나왔다고 한다면, 정상인 중에서 혈압이 해당환자의 혈압보다 더 높게 나온 사람은 0.02% 뿐이었다는 뜻임.
근데 얼마나 작아야 틀린건데?
유의수준과 기각역
유의확률값이 아주 작다는 것은, 귀무가설이 맞다는 가정하에 현재의 검정통계량값이 나올 가능성이 매우 적다는 의미.
근데 '아주 작다'는 판단을 위해서는 기준값이 필요. ->유의수준
'Archive > 통계&코딩이것저것' 카테고리의 다른 글
대리 분석-LIME (0) 2021.12.16 [Back to the Basic]엔트로피 (0) 2021.11.26 네거티브 샘플링을 이용한 Word2Vec 구현(w. TensorFlow) (0) 2021.11.16 Ordinal Regression (0) 2021.10.13 Neural Collaborative Filtering 논문 리뷰 (0) 2021.09.14