ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Back to the Basic]엔트로피
    Archive/통계&코딩이것저것 2021. 11. 26. 17:38

    엔트로피: 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것

    확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아짐.

    반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아짐.

    엔트로피는 확률분포의 모양이 어떤지를 나타내는 특성값 중 하나로 볼 수도 있음.

    확률 또는 확률밀도가 특정값에 몰려있으면 엔트로피가 작다고 하고, 반대로 여러가지 값에 골고루 퍼져있다면 엔트로피가 크다고 함.

     

    확률변수 Y가 카테고리분포와 같은 이산확률변수이면 다음처럼 정의.

    $$H[Y]=-\sum_{k=1}^K p(y_k)log_{2}p(y_k)$$

    여기서 K는 X가 가질 수 있는 클래스의 수, $p(y)$는 확률질량함수. 확률의 로그값이 항상 음수이므로 음수 기호를 붙여서 양수로 만듬.

     

    확률변수 Y가 정규분포와 같은 연속확률변수이면  다음처럼 정의.

    $$\int_{-\infty}^{\infty}{p(y)log_{2}p(y)dy}$$

    이 식에서 $p(y)$는 확률밀도함수.$p(y)$=0 일때는 0으로 정의.


    엔트로피의 성질

    확률변수가 결정론적이면(항상 같으면) 확률분포에서 특정한 하나의 값이 나올 확률이 1이다. 이 때 엔트로피는 0이 되고 이 값은 엔트로피가 가질 수 있는 최솟값이다. 

    그럼 값은 언제 제일 커질까? 모든 값에 골고루 분포해 있을 때 가장 커진다. 만약 가질수 있는 값이 $2^k$이면 엔트로피의 값은

    $$H=-2^k\frac{1}{2^k}log_{2}\frac{1}{2^k}=K$$

     

    엔트로피의 추정

    이론적인 pdf가 없고 실제 데이터가 주어진 경우에는 데이터에서 pmf를 추정한 후, 이를 기반으로 엔트로피를 계산한다.


    지니불순도

    확률분포가 어느쪽에 치우쳐있는가를 재는 척도지만 로그를 사용하지 않으므로 계산량이 더 적어 엔트로피 대용으로 많이 사용된다.

    $$G[Y]=\sum_{k=1}^K P(y_k)(1-P(y_k))$$

     


    조건부엔트로피: 어떤 확률변수 X가 다른 확률변수 Y의 값을 예측하는데 도움이 되는지를 측정하는 방법 중의 하나.

     

Designed by Tistory.