꼭 알아야할 수학(4)_확률
본 포스팅은 혁펜하임 [AI를 위한 수학] 딥린이를 위한 필수 수학 패키지를 참고하였습니다.
https://www.youtube.com/watch?v=frkVgBvp850
#1 랜덤 변수와 확률 분포
* 확률 함수란? 입력: 사건 --> 출력: 확률
즉, 확률 함수로 랜덤 변수의 확률 분포를 나타냄.
[확률 분포의 종류]
1. 확률 질량 함수 (Probability Mass Function): class O (ex. 동전의 확률, 주사위 확률)
예시>>
- 동전: p(x=0)=1/2
- 주사위: p(x=5)=1/6
따라서, 0과 1사이의 값을 갖는 양수이며, 합이 1이 된다.
2. 확률 밀도 함수 (Probability Density Function): class X (ex. 평균 한국 남자의 키)
예시>> 그래프 아래쪽 넓이 (특정한 값에 확률을 부여할 수 없음! --> 특정값은 확률이 0)
따라서, 적분이 1이 된다.
Q.) 왜 밀도 함수일까? 구간의 길이를 부피로, 확률을 질량으로 본다면, (부피/질량)=밀도가 되기 때문!!
#2 평균과 분산
* 확률 분포를 설명하는 두가지 대푯값은 평균과 분산!!
1. 평균
1) 산술평균 2) 기하평균 3) 조화평균 (참고: https://wikidocs.net/23088)
* 기댓값이란? 무한번 사건을 시행한 후 산술평균을 구하면 기댓값과 같아짐
ex. 주사위를 다섯번 던져서 나온 값은 3, 4, 2, 1, 6, 4 의 산술평균은 20/6 --> 이것을 무한번 시행하면 기댓값
하지만, 평균만을 가지고 분포를 설명하기에는 부족함.
따라서 분산도 확인해야함 --> ex. 100점, 0점 2명 vs. 50점 2명
2. 분산
* 분산이란? 평균으로부터 얼마나 퍼져있는가?
간단히 말하면, 평균과의 차이의 제곱 (편차의 제곱)의 평균
Q.) 왜? 절댓값을 쓰지 않고 제곱을 쓰는가? 절댓값을 쓸 경우 수치가 더 큰데도 불구하고 차이가 안나는 경우가 존재함. 따라서 제곱으로 큰 숫자는 더 크게 만들어줘 차이를 크게 만듦.
Q.) 그럼 왜 평균을 내주는가? 제곱하여 더하면 값이 많을수록 점점 커짐. 따라서 평균을 냄
Q.) 표준편차는 분산의 양의 제곱근인데 왜 만들었나? 제곱해서 평균내면 단위가 달라짐 예를 들어 cm**2의 경우. 따라서 제곱을 원래의 단위로 돌려주기 위해 편차를 만들었음.
#3 균등 분포와 정규 분포
1. 균등 분포(Uniform distribution) : 확률이 똑같아서 생김새가 평평함
*평균: 1/2(a+b)
*분산: 1/12(b-a)**2
2. 정규 분포(Normal distribution / Gaussian distribution) : 종 모양
*X~N(평균, 분산) : 랜덤 변수 X가 정규분포를 따른다.
참고 링크: http://kanggc.iptime.org/stat/chap8/chap8.pdf