Backtothebasic
-
[Back to the Basic]엔트로피Archive/통계&코딩이것저것 2021. 11. 26. 17:38
엔트로피: 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아짐. 반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아짐. 엔트로피는 확률분포의 모양이 어떤지를 나타내는 특성값 중 하나로 볼 수도 있음. 확률 또는 확률밀도가 특정값에 몰려있으면 엔트로피가 작다고 하고, 반대로 여러가지 값에 골고루 퍼져있다면 엔트로피가 크다고 함. 확률변수 Y가 카테고리분포와 같은 이산확률변수이면 다음처럼 정의. $$H[Y]=-\sum_{k=1}^K p(y_k)log_{2}p(y_k)$$ 여기서 K는 X가 가질 수 있는 클래스의 수, $p(y)$는 확률질량함수. 확률의 로그값이 항상 음수이므로 음수..
-
[Back to the Basic] 검정Archive/통계&코딩이것저것 2021. 11. 25. 17:05
검정: 데이터 뒤에 숨어있는 변수의 분포에 대한 가설이 맞는지, 틀리는지 정량적으로 증명하는 과정 동전 15번중에 12번이 앞면이 나왔는데, 이걸 공정한 동전이라고 할 수 있을까? 따져봐야 하지 않을까? 어떤 회사의 일주일 수익률은 다음과 같다. -2.5,-5%, 4.3%, -3.7%, -5.6% . 모수가 양수인 주식일까? 귀무가설(Null Hypothesis) 가정을 하고 시작하는, 기준이 되는 가설 데이터가 어떤 확률변수의 표본이라고 가정한다 데이터를 만드는 확률변수가 따르는 확률분포의 모수 $\theta$의 값이 어떤 특정한 실수값 $\theta_0$ 로 고정되어 있다고 가정한다. 대립가설(Alternative hypothesis) 내가 주장하려는 가설, 증명하고 싶어하는 가설 $$H_a : \t..