-
자료분석
양적자료를 분석할 때는 자료를 시각적으로 표현해서 자료에 존재하는 전반적인 경향을 살펴보며, 통계적 모형에 적합(fitting)시킨다.
도수분포표 : 자료의 분표를 몇 개의 구간으로 나누고, 나누어진 각 구간에 속하는 자료가 몇 개인지 정리한 표
히스토그램 : 도수분포표를 그래프로 만든 것기술통계량
최빈값 mode : 가장 빈번하게 나타나는 데이터. 두개 이상인 경우가 많음(이봉분포, 다봉분포)
중앙값 median : 크기 순으로 정렬했을 때 가운데에 오는 수. 짝수 일경우 중간의 두 숫자의 평균값이 중앙값. 극단적인 점수들에 비교적 영향을 덜받는다.
평균 mean : 모든 데이터 값을 더한 후 점수들의 개수로 나눔. 극단적 수치에 영향을 받기 쉽다. 모든 수치를 사용하기 때문에 서로 다른 표본들에서 안정적인 경향이 있다.
분포의 산포 dipersion 정도 :
- 범위 Range
- max - min
- 극단적인 점수들에 영향을 크게 받음
- 사분위간 범위
- 데이터 상위 25%와 하위 25%를 제거하고 가운데 50%만 범위 계산
- 오름차순으로 정렬하고 사분위수 quartile 계산
- 중앙값 제 2사분위수 - 자료를 같은 개수의 두 부분으로 나누는 지점
- 하위 사분위수 - 아래쪽 절반을 두 부분으로 나누는 지점
- 상위 사분위수 - 위쪽 절반을 두 부분으로 나누는 지점
통계적 모형의 구축
우리는 모든 자료를 가지고 있을 수 없기 때문에 그 과정을 대표하는 자료를 수집하고 그 자료를 이용해서 통계적 모형을 구축한다.
통계적 모형에 기초하여 무언가를 추론하는데, 정확한 추론을 위해서 수집된 자료를 모형이 어느정도 대표하는지 나타낼 때 적합(fit)이라는 개념을 사용한다.통계적 모형의 종류
선형 모형 : 계수들을 선형 결합으로 표현 할 수 있는 모형
비선형 모형 : 기계학습이나 딥러닝(신경망)단순한 통계적 모형
평균 mean 사용
- 오차제곱합 sum of squard errors
- 편차를 모두 더하면 0이되기 때문에 제곱을 해서 더하는 것이 오차제곱합.
- 제곱합은 모형의 정확도를 잘 측정하지만 수집한 자료가 많아 질 수록 결과값이 커지므로 분산이라는 개념을 적용한다.
- 분산 variance : 오차제곱합을 관측 수 n에서 1을 뺀 값으로 나눈 값.
- 자유도 degree of freedom : 표본분산은 모분산보다 작은 경향이 있기 때문에 n-1로 나눠줌으로 표본분산이 작아지는 것을 방지
- 표준편차 standard deviation : 분산의 제곱근.
관측된 자료는 그 자료에 적합시키고자 하는 모형에 일정한 양의 오차를 더함으로 예측 할 수 있다.
- 결과 = 평균(모형) + 오차
- 분산과 표준편차를 사용해 모형이 자료에 얼마나 적합한지 측정
- 오차제곱합으로 자료가 벗어난 정도를 알 수 있다
데이터의 성질
전체 데이터에 덧셈을 하면 평균이 덧셈이 되고, 전체 데이터에 곱셈을 하면 평균과 표준편차가 그만큼 곱셈이 된다.
하지만 데이터의 분포는 그대로 유지!이러한 데이터의 성질을 이용해 범위가 다른 데이터들을 표준화라는 작업을 거쳐 분포를 비교 할 수 있다.
- 중심화 : 모든 데이터에 평균을 뺀다면 평균은 0으로 이동, 표준편차는 동일.
- 척도화 : 중심화한 모든 데이터에 표준편차를 나누서 표준편차를 1로 만들어줌.
표준화 standardization
중심화 한 이후에 척도화 하는 과정을 표준화라고 한다.
중심화를 통해 평균에 비해 얼마나 크고 작은지 확인하고 척도화를 통해 단위 차이를 없앤 숫자를 만들어 낸다.표준화를 거치면 평균은 0이 되고, 표준편차는 1이 된다.
z-score
$$ z =\cfrac{X- \bar{X}}{s} $$
'머신러닝 > 통계학' 카테고리의 다른 글
가설검정 (0) 2022.08.04 신뢰구간 추정 (0) 2022.08.03 확률과 확률분포(2) (0) 2022.08.03 확률과 확률분포(1) (0) 2022.08.03 데이터분석 연구과정과 종류 (0) 2022.08.02 댓글
- 범위 Range