머신러닝/통계학
확률과 확률분포(1)
haong_
2022. 8. 3. 20:35
확률
사건이 일어나기 쉬운정도를 실제 수치로 나타낸 지표
Probability의 앞글자를 따서 P()로 표기
P(A) : 사건 A에 대한 확률 (A 원소 개수 / 총 원소 개수)
표본공간이 사건들로 이루어졌을때, 각각의 확률은 0과 1사이에 있어야하고 각각의 사건이 상호배반(독립)일 때, 이들 확률을 전부 더하면 1이 되어야한다. => 확률의 공리
$$ \begin{align} &0 \leq P(E_i) \leq for \ all \ i \\ &P(E_1) + P(E_2) + \cdots + P(E_n) = 1 \\ &P(A)=1-P(A^c) \end{align} $$
상대적 비율 접근
- 동전을 던졌을 때 앞면이 나올 확률 50%, 무수히 많이 던졌을때 50%로 수렴
- 빈도론자 Frequentist
주관적 비율 접근
- 내가 내일 비가 온다고 믿을 확률, 다음날 비가 오는지 안오는지에 따라 확률 업데이트
- 베이지안 Bayesian
확률분포 probability distribution
확률변수가 특정한 값을 가질 확률을 나타내는 함수
확률 변수 : 변수 x가 특정 값을 얻을 때의 확률이 정해져 있는 변수
기댓값 E(x) : 확률 변수의 평균, 어떤 시행 시 평균적으로 얻을 것으로 예측되는 값
$$ E(X) = \sum_{i=0}^{n} Xi \times Pi $$
확률분포의 분산 Var(x) : 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는 지를 가늠하는 숫자
편차 제곱에 확률값 곱해서 전부 sum. 식을 정리하다 보면 결국 (변수제곱의 평균 - 평균의 제곱)이라는 식이 나옴
이산 확률 분포
- 이산확률 변수가 가지는 확률분포 (예. 동전 던지기, 주사위)
연속 확률 분포
- 확률 밀도 함수를 이용해 분포를 표현 할 수 있는 경우 (예. 키, 몸무게)
베르누이 분포
- 어떤 시행의 결과가 성공 또는 실패 중 하나로 나타나고 성공일 확률을 p라 할 때, 성공이면 확률변수 X가 1 실패면 0을 갖는 X를 베르누이 확률변수라한다
- 확률질량함수는 f(1) = p, f(0)= 1 - p
- E(x) = p, Var(x) = p(1-p)
이항분포 binomial distribution
- 성공확률이 p인 베르누이 시도를 N번 하는 경우, 성공횟수(즉, n개의 베르누이 변수의 합)를 확률변수 X라 할 때, X를 이항확률변수라 한다.
- 확률 p와 시행횟수 n으로 결정되는 분포도 B(n,p)
- E(x) = np, Var(x) = np(1-p)
이항분포 문제
- 어떤 제품을 검사 했을때 불량품일 확률이 1/4 라면 제품 4개를 검사 했을때 2개가 불량품일 확률?
4개중 2개의 불량품 뽑을 경우의 수는 6(조합으로 계산)
6 x (1/4)^2 x (3/4)^2 = 27/128 = 0.2109... 약 21% - 4지 선다형 문제를 임의로 20문제 풀 때 7개를 맞출 확률은?
p = 1/4 q = 3/4
20문제중 7개를 맞출 경우의 수 38,760
30,760 x (1/4)^7 x (3/4)^13 = 0.1264.. 약 12.6%