머신러닝 스터디/딥러닝

꼭 알아야할 수학(4)_확률

hozy연 2023. 2. 12. 00:43

본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다. 

https://www.youtube.com/watch?v=frkVgBvp850

 

#1 랜덤 변수와 확률 분포

* 확률 함수란? 입력: 사건 --> 출력: 확률

즉, 확률 함수로 랜덤 변수의 확률 분포를 나타냄.

확률 분포 예시


[확률 분포의 종류]

 

1. 확률 질량 함수 (Probability Mass Function): class O (ex. 동전의 확률, 주사위 확률)

예시>>

- 동전: p(x=0)=1/2 

- 주사위: p(x=5)=1/6

따라서, 0과 1사이의 값을 갖는 양수이며, 합이 1이 된다. 

 

2. 확률 밀도 함수 (Probability Density Function): class X (ex. 평균 한국 남자의 키) 

예시>> 그래프 아래쪽 넓이 (특정한 값에 확률을 부여할 수 없음! --> 특정값은 확률이 0)

따라서, 적분이 1이 된다.

 

확률 밀도 함수

 

Q.) 왜 밀도 함수일까? 구간의 길이를 부피로, 확률을 질량으로 본다면, (부피/질량)=밀도가 되기 때문!!

왜 밀도 함수일까?


 

#2 평균과 분산

* 확률 분포를 설명하는 두가지 대푯값은 평균과 분산!!

 

 

1. 평균

1) 산술평균 2) 기하평균 3) 조화평균 (참고: https://wikidocs.net/23088)

 

* 기댓값이란? 무한번 사건을 시행한 후 산술평균을 구하면 기댓값과 같아짐

ex. 주사위를 다섯번 던져서 나온 값은 3, 4, 2, 1, 6, 4 의 산술평균은 20/6 --> 이것을 무한번 시행하면 기댓값

 

기댓값 공식
연속 랜덤 변수에 대한 기댓값 공식

 

하지만, 평균만을 가지고 분포를 설명하기에는 부족함.

따라서 분산도 확인해야함 --> ex. 100점, 0점 2명 vs. 50점 2명

 

 

2. 분산

* 분산이란? 평균으로부터 얼마나 퍼져있는가?

간단히 말하면, 평균과의 차이의 제곱 (편차의 제곱)의 평균

 

이산형 분산 공식
연속형 분산 공식

 

Q.) 왜? 절댓값을 쓰지 않고 제곱을 쓰는가? 절댓값을 쓸 경우 수치가 더 큰데도 불구하고 차이가 안나는 경우가 존재함. 따라서 제곱으로 큰 숫자는 더 크게 만들어줘 차이를 크게 만듦.

 

Q.) 그럼 왜 평균을 내주는가? 제곱하여 더하면 값이 많을수록 점점 커짐. 따라서 평균을 냄

 

Q.) 표준편차는 분산의 양의 제곱근인데 왜 만들었나? 제곱해서 평균내면 단위가 달라짐 예를 들어 cm**2의 경우. 따라서 제곱을 원래의 단위로 돌려주기 위해 편차를 만들었음.

 

#3 균등 분포와 정규 분포

 

1. 균등 분포(Uniform distribution) : 확률이 똑같아서 생김새가 평평함

 

연속형 균등분포

*평균: 1/2(a+b)

*분산: 1/12(b-a)**2

 

2. 정규 분포(Normal distribution / Gaussian distribution) : 종 모양

*X~N(평균, 분산) : 랜덤 변수 X가 정규분포를 따른다.

 

참고 링크: http://kanggc.iptime.org/stat/chap8/chap8.pdf