머신러닝 스터디/딥러닝

꼭 알아야할 수학(6)_정보이론

hozy연 2023. 2. 12. 19:17

# 1 정보이론이란?

* 정보 이론이란, 최대한 많은 데이터를 매체에 저장하거나 채널을 통해 통신하기 위해 데이터를 정량화하는 응용 수학의 한 분야이다.(위키백과)

ex. Bits (이진수, 모스부호)

 

- 랜덤한 정보를 최대한 효율적으로 표현하기 위해서는 높은 확률로 나오는 글자는 간결하게 낮은 확률로 나오는 글자는 보다 길게 코딩하는 것이 좋을 것. (아래의 식을 최소화하는 것이 목표)

그렇다면 어떻게 효율적인 코드 길이를 알 수 있나? 그 수치는 무엇인가? --> 엔트로피!

 

# 2 엔트로피 (Entropy)

* 엔트로피 공식은 아래와 같다. 

엔트로피 공식
왜 -log를 취했나?

-log를 취한 이유는 언급한 확률이 클수록 길이(y)를 작게 반환하는 그래프이기 때문이다. 


예시>>


** 균등 분포일때가 가장 최악의 상황이 나온다. why? 확률이 다 같으니 그만큼 복잡도가 올라가니 entropy가 올라가는 것은 당연 

(즉, 확률 분포가 불균등해야 효율적인 코딩이 가능하다)

 

 

# 3 크로스엔트로피 (Cross-entropy)

* 언급 확률이 전부 동일하다고 가정한다면? (사실 p의 확률을 따르지만 q의 확률을 따른다고 가정해보자)

- 딥러닝에서 q는 신경망 출력, 최대한 p와 비슷하게 만드려고 노력함.

 

 

# 4 KL-divergence

KL-divergence 공식

- 임의의 q - 원래의 확률 p값이므로 당연히 양수가 도출된다. 

- p와 q의 거리 차이로 볼 수 있다.

 

" p (여기서는 q)가 q (여기서는 p)에 가까이갈 수록 KL Divergence 0에 가까워질 것이다. 그리고 H(q) (여기서는 p) 는 고정이기 때문에, H_p(q) (여기서는 q)를 최소화 시키는 것이 예측 모형을 최적화 시키는 것이라고 할 수 있다. 따라서 cross-entropy 를 최소화 시키는 것이 KL Divergenece 를 최소화 시키는 것이며, 이것이 불확실성을 제어하고자하는 예측모형의 실질적인 목적이라고 볼 수 있다. "

참고링크: https://3months.tistory.com/436

 

# 4 Mutual information

- 만일 x,y가 독립이라면, p(x,y)= p(x)*p(y)로 표현될 수 있다. 따라서 log1=0이므로 완전히 독립적일때 0이 된다. 

즉! 독립적이지 않은 정도를 나타내는 수식이다. 

'머신러닝 스터디 > 딥러닝' 카테고리의 다른 글

이중 분류  (0) 2023.03.13
꼭 알아야할 수학(5)_확률  (0) 2023.02.12
꼭 알아야할 수학(4)_확률  (0) 2023.02.12
꼭 알아야할 수학(3)_미분심화  (0) 2023.02.04
꼭 알아야할 수학(2)_미분  (0) 2023.01.31