연속형 확률분포
연속 확률 변수의 분포, 연속적인 값들의 분포 이기 때문에 이산형 처럼 하나로 집어 말할 수 없고 범위로 이야기 한다 (체중, 키 같은..)
확률 밀도 함수
연속형 확률 분포 그래프에서 특정 범위의 확률을 계산하기 위한 함수
연속형 확률 변수 X가 a≤X≤b 인 값을 가질 확률을 a~b 구간의 면적으로 계산, 이때 적분을 사용해서 구한다
$$ P(a \leqq X \leqq b) = \int_{a}^{b} f(x)dx $$
확률은 0~1 범위를 갖기 때문에 전체 면적은 1 이다
큰 수의 법칙
사건을 무한히 반복할 때 일정한 사건이 일어나는 비율은 횟수를 거듭할수록 일정한 값에 가까워지는 법칙
예시) 동전을 100번 던져서 앞면이 60번 나왔다면 앞면이 나올 확률은 0.6이지만 동전을 무한히 던지면 앞면이 나올 확률은 결국 0.5에 근사 할 것이다
모집단에서 표본을 추출할 때 표본의 크기가(n) 커지면(시행횟수가 늘어나면) 상대도수와 모비율의 값이 같아질 확률이 높아진다는 의미로 이해 가능
중심 극한 정리 CLT
모집단의 분포에 상관없이 임의의 분포에서 추출된 표본들의 평균의 분포는 정규 분포를 이룬다는 법칙
핵심 키워드는 평균. 샘플링을 어떻게 해도 어차피 거기서의 평균을 구하는 것이기 때문에 모집단의 분포가 균등(유니폼)분포여도 표본 평균의 분포는 정규분포를 따르게 된다
샘플 수가 최소 30개 이상일때 모집단의 평균과 분산을 알아낼 수 있다
정규분포 Normal distribution
이제 평균에 가까울수록 발생할 확률이 높고 멀어질수록 발생확률이 적은 현상을 나타내는 분포, 좌우대칭에 종모양
$$ 평균:\mu \ 표준편차:\sigma $$
표준정규분포
정규분포를 표준화해서 평균 0 표준편차 1로 만든 것
$$ 표준화 \ 공식\ : \ Z = \cfrac{X-\mu}{\sigma} $$
정규분포표
적분계산을 일일히 하기 번거로우므로 미리 계산해둔 표
위 표는 중앙에서 반으로 나눠서 계산한 면적으로 표시해둔곳을 보면 0.475X2= 0.95 임을 알 수 있다. 즉, 확률변수 Z가 표준정규분포를 따를 때 -1.96 ≤ Z ≤ 1.96 에 전체 면적의 95%가 포함된다는 뜻이다!
정규분포 문제
어느 공장에서 생산되는 부품의 길이는 평균 370mm, 표준편차 3mm의 정규분포를 따를 때, 제품의 길이가 376mm 이상일 확률?
$$ z= \cfrac{X - \bar{X}}{s} = \cfrac{376-370}{3} = 2 $$
$$ P(X \geq 376) \rightarrow P(z \geq 2) = 1-(Pz \leq2) = 1-0.9772 = 0.0228 = 2.28% $$
'머신러닝 > 통계학' 카테고리의 다른 글
가설검정 (0) | 2022.08.04 |
---|---|
신뢰구간 추정 (0) | 2022.08.03 |
확률과 확률분포(1) (0) | 2022.08.03 |
기초기술통계량 (0) | 2022.08.02 |
데이터분석 연구과정과 종류 (0) | 2022.08.02 |