공분산
$$ cov(x,y) = \cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{N-1} $$
- 한 변수의 변화(분산)가 다른 변수의 변화 방식과 어느 정도나 부합하는지
- 두 편차의 값이 둘다 양수이거나 둘다 음수 이면 그 곱은 양수(편차의 방향이 같다), 하나만 음수면 음수(편차의 방향이 다르다)
이 곱을 교차곱 편차 - 이 교차곱 편차의 합을 N-1로 나눈 값을 공분산이라고 한다.
표준화된 공분산 > 상관계수 (피어슨 상관계수)
$$ r=\cfrac{cov(x,y)}{s_x s_y} $$
$$ r=\cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\Sigma(x_i-\bar{x})^2 \times \Sigma(y_i-\bar{y})^2}} $$
- r은 -1에서 1사이의 값이다.
- 완전한 양의 상관 : +1
- 아무런 관계 없음 : 0
- 완전한 음의 상관 : -1
두 변수의 관계를 상관계수로 측정가능
두 변수 모두 구간 자료 일때만 적용
상관계수 유의성 판정하려면 자료가 정규분포
주의 할것 - 상관은 인과가 아니다.
- 제 3변수 문제 : 결과에 영향을 미치는 다른 어떤 변수(측정한 것이든, 측정하지 않은 것이든)가 있을 수 있으므로 두 변수 사이의 인과관 계를 가정할 수 없다.
- 인과관계 방향 : 상관계수는 어떤 변수가 다른 어떤 변수의 변화를 유발하는지에 관해 아무것도 말해주지 않는다.
R^2 결정계수
상관관계를 제곱한 값 > 결정계수
- 한 변수의 변동성을 다른 변수가 어느 정도나 공유하는지 말해주는 측도
효과크기 effect size
- 검정통계량이 유의하다고 해서, 그것이 측정하는 효과가 중요하거나 의미있다는 뜻이 아니다.
- 관측된 효과가 어느정도나 큰지를 객관적이고 표준화된 방식으로 축정 (상관계수, 승산비..)
- 효과크기는 어떤 효과의 중요도를 객관적으로 측정한 것
- 효과크기를 계산 할때는 주어진 하나의 표본으로 계산
- 모집단 효과크기를 좀 더 잘 추정하기 위해 같은 질문을 연구하는 서로 다른 여러 연구 결과의 효과크기들을 결합 (메타분석)
'머신러닝 > 통계학' 카테고리의 다른 글
앤디필드의 통계학 1장 (0) | 2023.05.02 |
---|---|
선형회귀 (0) | 2022.08.04 |
가설검정 (0) | 2022.08.04 |
신뢰구간 추정 (0) | 2022.08.03 |
확률과 확률분포(2) (0) | 2022.08.03 |