ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Back to the Basic] 검정
    Archive/통계&코딩이것저것 2021. 11. 25. 17:05

    검정: 데이터 뒤에 숨어있는 변수의 분포에 대한 가설이 맞는지, 틀리는지 정량적으로 증명하는 과정

     

     

     동전 15번중에 12번이 앞면이 나왔는데, 이걸 공정한 동전이라고 할 수 있을까? 따져봐야 하지 않을까?

    어떤 회사의 일주일 수익률은 다음과 같다. -2.5,-5%, 4.3%, -3.7%, -5.6% . 모수가 양수인 주식일까?


    귀무가설(Null Hypothesis)

    가정을 하고 시작하는, 기준이 되는 가설

    • 데이터가 어떤 확률변수의 표본이라고 가정한다
    • 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수값 $\theta_0$ 로 고정되어 있다고 가정한다.

    대립가설(Alternative hypothesis)

    내가 주장하려는 가설, 증명하고 싶어하는 가설

     $$H_a : \theta \neq \theta_0 \t \theta \>= \theta_0$$

     

    검정통계량

    귀무가설이 맞거나 틀렸다는 걸 증명하려면 어떤 증거가 있어야 한다. 

    • '어떤 병에 걸렸다' 라는 가설을 증명하려면 환자의 혈액을 채취하여 혈액 내의 특정한 성분의 수치를 측정해야 한다고 가정. 이때 해당 수치가 검정통계량이 됨

    $$t=f(x_1,x_2,...,x_N)$$

     

    • 검정통계량은 확률변수 X의 표본에서 계산된 함수의 값이므로 어떤 값이 나올지 정확하계 예측할 수 없음. 따라서 검정통계량 t도 검정통계량 확률변수 T라는 새로운 확률변수의 표본으로 볼 수 있다.
    • 원 변수 X의 pdf로부터 T의 pdf를 수학적으로 계산해 낼 수 있음.

    대충그려봄. 원변수와 검정통계량(t)의 관계는 이렇다고 할 수 있다.

     

     

    검정통계량 분포에서 검정통계량이 가능성 높은 값이 나올지, 가능성이 낮은 값이 나올지가 중요하다.

     

    예를들어 동전이 fair하다고 가정했을때, 검정통계량 분포는 이렇게 나와야 되고 , 검정통계량 값 뽑아봤더니 해당 분포에서 많이 나오는 값이 나왔다-> 논리에 이상 없음!

    근데 동전이 fair하다고 가정하고 값을 뽑아봤는데 검정통계량 분포에서 잘 안나오는 값이 나왔다?? 너무너무 가장자리에 있는 값이 나왔다..? 그렇다면 시작이(귀무가설이) 잘못된 거 아닐까?

     

    근데 가능성이 높은지 낮은지는 , 가장자리에서 값이 나왔다는 건 어떻게 잴까?


    유의확률

    검정통계량을 기준으로 한 가장자리 면적! 이라고 하자.

    귀무가설이 맞음에도 불구하고 현재 검정통계량과 같거나 혹은 대립가설을 더 지지하는 검정통계량값이 나올 확률

     

    어떤 환자의 혈압이 고혈압이라는 것을 증명하고 싶을 때 귀무가설과 대립가설은:

    • 귀무가설: '혈압이 정상이다'
    • 대립가설: '고혈압이다'

    이 검정에서 혈압 검사 결과를 통계량 분포로 하고, 해당 환자의 혈압을 검정통계량으로 사용하여 계산한 우측유의확률이 0.02% 이 나왔다고 한다면, 정상인 중에서 혈압이 해당환자의 혈압보다 더 높게 나온 사람은 0.02% 뿐이었다는 뜻임.

     

    근데 얼마나 작아야 틀린건데?

     

    유의수준과 기각역

     

    유의확률값이 아주 작다는 것은, 귀무가설이 맞다는 가정하에 현재의 검정통계량값이 나올 가능성이 매우 적다는 의미. 

    근데 '아주 작다'는 판단을 위해서는 기준값이 필요. ->유의수준

     

     

     

     

Designed by Tistory.