-
이번 장에서 배우는 내용
주어진 이론이 참인지 확인할 때에는 관측자료를 정확하게 반영하는 모형을 적합시키는 것이 중요
- 측도(measure): 변수를 측정한 값(정보)의 특성
예) 평균, 최빈값, 중앙값 등
- 척도(scale): 변수의 특성 및 이를 측정하는 기준
예) 명목, 서열, 등간, 비율
통계적 모형의 구축
설명하고자 하는 현상이 어떤 것이든, 그 현상에 관한 가설을 만들고 자료를 수집해서 그 가설을 검증하는 과정이 필요함 → 이러한 과정에는 통계적 모형을 구축하는 활동이 포함됨
현실 세계에 우리가 만든 가설이 어떻게 작동하는지 예측하기 위해 자료를 수집하고 그 자료를 이용해서 통계적 모형을 구축함 → 이 통계적 모형이 실제 세계를 어느 정도나 대표하는지 나타날 때 모형의 적합(fit)이라는 개념을 사용함
fit이 좋지 않은 모형에 기초한 예측은 부정확할 확률이 높으므로, 통계적 모형을 자료 집합에 적합시킬 때는 자료에 잘 적합하는 모형을 만드는 것이 중요
모집단과 표본
모집단(population)
- 우리의 가설을 적용하길 원하는 집단
- 아주 일반적일 수도 있고 아주 협소적일 수도 있지만 일반적으로 일반적인 모집단에 관한 무언가를 추론함
- 대부분의 상황에서 모집단 모두를 확인할 수 없음
표본(sample)
- 모집단의 작은 부분집합
- 표본으로부터 모집단의 행동에 관한 것을 추론
- 표본의 크기가 클수록 모집단 전체를 반영할 가능성이 커짐
단순한 통계적 모형 몇 가지
- 평균(mean)
- 통계학에서 가장 단순한 모형 중 하나
- 평균이 반드시 자료에 있는 실제 관측값은 아님
- 가설상의(hypothetical) 값 → 자료를 요약하기 위해 만들어 낸 하나의 통계적 모형
- 제곱합(sum of squared), 분산(variance), 표준편차(standard deviation, SD)
- 통계적 모형이 얼마나 정확한지 실제 자료와 모형의 차이를 통해서 알 수 있음
- 이탈도(deviance) → 관측값과 평균값의 차이
- 모형의 오차(error)
- 모형의 오차들을 모두 더하면 0이 되어, 실제 자료와 모형의 차이를 확인할 수 없고, 하나의 예측에 대해서만 평가가 가능함
- 오차제곱합(sum of squared errors, SS)
- 양의 오차들과 음의 오차들이 상쇄되는 것을 막기 위해, 각 오차들의 제곱하여 더한 값
- 자료가 많아질수록 SS도 커지므로, 관측값들의 개수 N으로 나누어서 평균 오차를 구할 필요가 있음
- 분산(variance)
- SS를 관측값들의 개수 N으로 나누어서 평균 오차를 구하면 분산임
- 표본의 평균오차에만 관심이 있거나, 모집단 자체의 분산에 관심이 있으면 해당하는 관측값들의 개수인 N으로만 나누면 되지만, 모집단의 오차를 추정하기 위해 분산을 구하고자 한다면 1을 뺀 N-1로 나누어야 함 → 4-1 참고
- 평균과 관측값 사이의 평균오차
- 모형이 실제 자료에 얼마나 적합한지를 나타내는 하나의 측도
- 하지만 단위가 제곱이 되어, 원래의 측도와 단위가 달라지므로, 단위를 맞출 필요가 있음
- 표준편차(standard deviation, SD)
- 분산에 제곱근을 씌운 값
- 평균오차의 측도가 원래의 측도와 단위가 같아짐
- 표준편차가 클수록 분포가 평평해지고, 표준편차가 작을수록 분포가 좁아짐
- 오차제곱합, 분산, 표준편차 모두 평균이라는 통계적 모형의 적합(fit)을 나타냄
- 표준편차가 작다는 것은 자료점들이 평균에 가깝다는 뜻이고, 표준편차가 평균보다 크다는 것은 자료점들이 평균에서 멀다는 뜻 → 평균이 자료를 잘 대표하지 못함
- 통계적 모형으로서의 평균
- 평균은 단순하게 자료에 적합시킬 수 있는 통계적 모형 중 하나임
- 통계학의 모든 것은 아래의 방정식으로 축약됨
- 결과 = 모형 + 오차
- 관측하는 자료는 그 자료에 적합시키고자 하는 모형에 일정한 양의 오차를 더함으로써 예측이 가능함
- 우리가 앞에서 구했던 오차제곱합은 평균이라는 통계적 모형에서 자료가 벗어난 정도를 구한 것
- 자료가 벗어난 정도 = SUM((관측값 - 모형)^2)
자유도(degree of freedom)
자유도는 임의로 변할 수 있는 관측들의 개수
표본의 분산을 구할 때, 관측값들의 개수에서 1을 빼는 이유는 아래와 같다.
표본의 평균이 10이고, 표본의 개수가 5개라고 하면, 우리는 모집단의 평균도 10이라고 가정을 하는 것과 같다.
평균이 10이라고 고정이 되면, 우리는 표본 5개 중, 4개의 값만 알아도 나머지 하나의 표본 값을 알게 된다.
그래서 표본의 갯수가 5개지만, 실제로 임의로 변할 수 있는 관측들의 갯수는 N-1인 4가 된다.
실제 표본분산을 유도하여도, 동일한 결과를 얻을 수 있다.
5. 자료 이상의 것을 얻으려면
수집한 자료를 요약하는 것도 중요하지만, 더 나아가 일반적인 예측을 이끌어내는 것이 더 중요함
→ 모형이 표본에 잘 적합하는지를 살펴보는 것이 아니라, 표본을 추출한 모집단에 잘 적합하는지를 살펴보아야 함
- 표준오차(standard error)
- 표본에서 자료를 수집하는 이유는 모집단 전체에 접근할 수 없기 때문임
- 한 모집단에서 여러 개의 표본을 취한다면, 그 표본들은 서로 조금씩 다름 → 특정한 하나의 표본이 모집단을 얼마나 잘 대표하는지를 아는 것이 중요
- 표집변동(sampling variation)
- 한 모집단에서 여러 개의 표본을 취했을 때, 각 표본마다의 차이가 존재하는데 이를 표집변동이라고 함
- 각 표본이 이 모집단의 서로 다른 구성원들로 이루어져서 발생
- 표집분포(sampling distribution)
- 표본들로부터 얻은 통계치를 도수분포로 나타낸 것을 표집분포라고 함
- 일반적으로 평균을 사용하지만, 그 외의 통계치도 가능
- 표집변동(sampling variation)
- 모든 표본평균의 평균을 계산하면 모집단의 평균과 같음 → 모집단의 평균의 정확도를 안다면 주어진 한 표본이 얼마나 모집단을 대표하는지 알 수 있음
- 표준오차는 표본에서의 통계치들의 표준편차를 가리키는 말임 → 평균을 사용할 경우에, 표본평균들의 표준편차를 우리는 평균의 표준오차라고 함
- 중심극한정리(central limit theorem)
- 표본이 클수록 표집분포는 그 평균이 모집단 평균과 같고, 표준편차가 다음과 같은 정규분포를 따름(흔히 표본이 30개 이상이면 크다고 간주) → 30개 미만이면 t분포
- SE = s / √ n
- SE는 표준오차, s는 표본표준편차, n은 표본크기이다
- 표본이 클수록 표집분포는 그 평균이 모집단 평균과 같고, 표준편차가 다음과 같은 정규분포를 따름(흔히 표본이 30개 이상이면 크다고 간주) → 30개 미만이면 t분포
- 중심극한정리(central limit theorem)
- 신뢰구간(confidenc interval)
- 우리가 평균의 참값이 속한다고 믿는 구간을 계산하는 것 → 신뢰구간
- 신뢰구간의 의미는 모집단의 값이 속하리라고 간주되는 값들의 범위
- 일반적으로 95%, 99% 신뢰구간을 사용 → 95% 신뢰구간의 의미는 표본을 100개 수집해서 평균을 계산했을 때, 100개 중 95개의 표본에서는 모집단의 평균 참값이 신뢰구간에 속하는 것임
- 신뢰구간 95% → z 점수가 -1.96과 1.96의 사이 / 신뢰구간 99% → z 점수가 -2.58과 2.58의 사이
- 표준화 공식 z = (X-m) / σ
-
통계적 모형을 이용한 연구 질문 검증
연구 과정의 다섯 단계
- 초기 관찰을 통해서 연구 질문을 만든다
- 초기 관찰을 설명하는 이론을 만든다
- 가설을 세운다 → 이론을 일단 검증 가능한 예측들로 분할한다
- 가설을 검증할 자료를 수집한다 → 예측들을 검증하기 위해 측정해야 할 변수들을 결정하고, 그 변수들을 측정 또는 조작하는 최선의 방법을 파악한다.
- 자료를 분석한다 → 통계적 모형을 자료에 적합시킨다. 이 모형은 원래의 예측들을 검증하는 역할을 한다. 이 모형이 초기 예측들을 지지하는지 평가한다.
- 검정통계량(test statistic)
- 검정통계량 = 모형이 설명하는 변동 / 모형이 설명하지 못하는 변동 = 효과 / 오차
- 검정통계량은 체계적 변동을 비체계적 변동과 비교하는 것이고, 이러한 비교는 모형/가설이 자료를 얼마나 잘 설명하는지와 모형/가설이 자료를 얼마나 잘 설명하지 못하는지를 비교하는 것에 해당
- 한쪽꼬리 검정과 양쪽꼬리 검정
- 가설은 방향이 있을 수도 있고, 없을 수도 있음
- 방향이 있는 가설을 검증하는 통계적 모형 → 한쪽꼬리 검정(one-tailed test)
- 방향이 없는 가설을 검증하는 통계적 모형 → 양쪽꼬리 검정(two-tailed test)
- 제1종 오류와 제2종 오류
- 제1종 오류 → 모집단에 효과가 존재한다고 믿지만, 사실은 모집단에 아무런 효과가 없음
- 알파 수준 → 제1종 오류가 발생할 확률 (p-value : 귀무가설이 맞다고 했을 때, 귀무가설이 말이 될 확률)
- 제2종 오류 → 모집단에 실제로 효과가 존재하지만 모집단에 아무 효과도 존재하지 않는다고 믿는 것
- 베타 수준 → 제2종 오류가 발생할 확률 (검정력)
-
- 제1종 오류 → 모집단에 효과가 존재한다고 믿지만, 사실은 모집단에 아무런 효과가 없음
- 효과크기(effect size)
- 효과가 진짜인지 검증하는 틀에서는 몇 가지 주의해야 할 사항이 있음
- 효과의 중요도를 고려 → 검정통계량이 유의하다고 해서 그것이 측정하는 효과가 중요하거나 의미 있다는 뜻이 아님
- 검증하고자 하는 효과의 크기를 표준화된 방식으로 측정해보는 것 → 효과크기
- 효과크기에는 여러 가지 측도가 존재
- 코언의 d ->두 표본 집단의 평균 차이 / 추정된 표준편차
- 피어슨의 상관계수 r → 공분산 / 각 변수의 표준편차의 곱
- 효과 있음(1, -1) 또는 효과 없음(0) 사이로 제한됨
- 그룹 크기들의 변동이 클 때는, d에 비해 더 편향될 수 있음
- r = 0.1 → 전체 변동의 1% / r = 0.3 → 전체 변동의 9% / r = 0.5 → 전체 변동의 25% /
- 승산비(odds ratio) → 임의의 이벤트가 어떤 요인에 의해 발생하지 않을 확률 대비 발생할 확률
- Odds = (이벤트 발생확률) / (이벤트 미발생확률) = p / (1-p)
- 통계적 검정력
- 검정력(power) → 해당 표본의 크기의 효과를 검출하는 검정 능력
- 모집단에 효과가 존재한다는 가정하에서 주어진 검정이 그 효과를 검출할 확률
- 제2종 오류 베타의 의미는 실제 존재하는 효과를 검출하지 못할 확률 → 통계적 검정력은 1 - 베타
- 코언은 베타가 0.2 이하가 되도록 해야된다고 했음 → 0.8 이상의 확률로 검출할 수 있는 검정력을 가지도록 해야 됨
- 모집단의 효과크기는 아래 3가지 통계적 속성과 연결되어 있음
- 효과크기가 기초하는 표본의 크기
- 효과의 통계적 유의성을 승인하는 확률 수준(알파 수준)
- 해당 크기의 효과를 검출하는 검정 능력(검정력)
- 위에 나온 3가지 통계적 속성 중 2가지를 알면 나머지를 알 수 있음
- power analysis
- n = (α + β)^2 * (σ^2 / Δ^2)
- n -> 필요한 표본 크기 / α -> 제1종 오류 / β -> 제2종 오류 /σ -> 모집단의 표준편차 /Δ -> 연구자가 관심 있는 최소한의 효과 크기
'머신러닝 > 통계학' 카테고리의 다른 글
앤디필드의 통계학 6장 상관 (0) 2023.05.02 앤디필드의 통계학 5장 자료검정 (0) 2023.05.02 앤디필드의 통계학 1장 (0) 2023.05.02 선형회귀 (0) 2022.08.04 상관관계 (0) 2022.08.04 댓글