10장의 분산분석을 결과변수에 영향을 주는 변수들도 고려해야 하는 상황으로 확장 한 것. 종속 변수와 독립변수 사이의 관계를 평가하고 그룹 간의 평균 차이를 비교해 유의미한 차이를 판단하는 분석방법.
공분산분석이란
공변량 : 독립변수 외에도 종속변수에 영향을 미치는 변수. 공변량은 포함한 분석은 종속변수와 독립변수 간의 관계를 더 정확히 평가할 수 있도록 도와준다. 이 측정된 공변량을 포함하는 분산분석을 가리켜 공분산분석이라고 함.
- 그룹내 오차 변동 감소
- “설명되지 않은” 변동(SSR) 일부를 다른 변수들로(=공변량)로 설명할 수 있다면 오차의 변동이 줄어드는 효과. 독립변수의 효과를 좀 더 정확하게 평가 할 수 있게 됨.
- 중첩변수 제거
- 종속변수에 영향을 미치는 변수들의 편향을 확인하고 제거 할 수 있음.
예시) 이전 10장의 비아그라 연구에서 이어진 예시 사용..
- 비아그라뿐 아니라 파트너의 리비도 또한 실험 참가자의 리비도에 영향을 줄 수 있기 때문에 파트너의 리비도 변수를 추가.
- 리비도i = b0 + b3파트너의 리비도i + b2고i + B2저i + εi
공분산분석의 가정과 문제점
공분산분석의 가정들은 분산분석과 같으며 그외 두가지 추가적인 고려사항이 존재
공변량과 처리 효과의 독립성
공변량과 처리효과 간 상호작용이 없는 것을 의미
하단의 그림 예시를 보면 A는 기본적인 분산 시나리오, B는 공변량이 설명하는 변동이 설명되지 않는 변동하고만 겹치는 공분산분석에 이상적인 상황. C는 공분산분석을 사용하지 말아야 하지만 잘못 사용하는 상황. 공변량의 효과가 처리 효과와 중첩되기 때문에 혼선이 생긴다.
예를 들어 불안과 우울증에는 밀접한 상관관계가 있으므로 어떤 과제에 대해 불안 그룹과 비불안 그룹을 비교하는 경우, 불안 그룹 참가자들이 비불안 그룹의 참가자들보다 좀 더 우울할 가능성이 있다. 이때 우울을 하나의 공변량으로 삼는다면 상황 C같은 일이 일어난다. 공변량 즉 우울의 효과의 변동에 불안의 효과의 변동의 일부가 포함되며 분리 할 수 없고 그 부분은 항상 공유된다.
이 문제는 참가자들을 무작위로 실험군들에 배정하거나, 실험군의 공변량이 차이가 나지 않도록 조정해서 해결할 수 있음. 실험군들의 공변량에 차이가 있는지 상호작용 검정(t 검정이나 분산분석)을 통해 미리 점검 할 수 있다.
회귀 기울기 동질성
독립 변수와 종속 변수 사이 관계가 다른 그룹 또는 조건 간에 동일하다는 것을 의미
한 그룹에서 공변량과 결과변수가 양의 상관관계라고 하면 다른 모든 그룹에서도 공변량과 결과변수 사이에 양의 상관관계가 존재할 것이라고 가정하는 것. 만약 결과변수와 공변량의 관계가 그룹마다다르다면 전체적인 회귀모형이 부정확 한것(모형이 모든 그룹을 대표하지 않음)
비아그라 예제)
파트너의 리비도가 모든 그룹에서 동일하다는 가정. 하단의 그림을 보면 위약, 저용량 그룹은 파트너의 리비도가 양의 상관관계임이 드러나지만, 고용량 그룹에서는 명확한 관계가 존재 하지 않음. 따라서 회귀 기울기 동질성 가정이 성립한다고 보기 힘듬
'머신러닝 > 통계학' 카테고리의 다른 글
앤디필드 통계학 8장 로지스틱 회귀 (0) | 2023.06.01 |
---|---|
앤디필드 통계학 7장 회귀 (1) | 2023.06.01 |
앤디필드의 통계학 6장 상관 (0) | 2023.05.02 |
앤디필드의 통계학 5장 자료검정 (0) | 2023.05.02 |
앤디필드의 통계학 2장 (1) | 2023.05.02 |