머신러닝/통계학

상관관계

haong_ 2022. 8. 4. 22:54

공분산 

$$ cov(x,y) = \cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{N-1} $$

  • 한 변수의 변화(분산)가 다른 변수의 변화 방식과 어느 정도나 부합하는지
  • 두 편차의 값이 둘다 양수이거나 둘다 음수 이면 그 곱은 양수(편차의 방향이 같다), 하나만 음수면 음수(편차의 방향이 다르다)
    이 곱을 교차곱 편차
  • 이 교차곱 편차의 합을 N-1로 나눈 값을 공분산이라고 한다. 

표준화된 공분산 > 상관계수 (피어슨 상관계수)

$$ r=\cfrac{cov(x,y)}{s_x s_y} $$

$$ r=\cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\Sigma(x_i-\bar{x})^2 \times \Sigma(y_i-\bar{y})^2}} $$

  • r은 -1에서 1사이의 값이다.
  • 완전한 양의 상관 : +1
  • 아무런 관계 없음 : 0
  • 완전한 음의 상관 : -1

두 변수의 관계를 상관계수로 측정가능
두 변수 모두 구간 자료 일때만 적용
상관계수 유의성 판정하려면 자료가 정규분포

주의 할것 - 상관은 인과가 아니다. 
 - 제 3변수 문제 : 결과에 영향을 미치는 다른 어떤 변수(측정한 것이든, 측정하지 않은 것이든)가 있을 수 있으므로 두 변수 사이의 인과관   계를 가정할 수 없다. 
 - 인과관계 방향 : 상관계수는 어떤 변수가 다른 어떤 변수의 변화를 유발하는지에 관해 아무것도 말해주지 않는다. 

R^2 결정계수

상관관계를 제곱한 값 > 결정계수

  • 한 변수의 변동성을 다른 변수가 어느 정도나 공유하는지 말해주는 측도

효과크기  effect size

  • 검정통계량이 유의하다고 해서, 그것이 측정하는 효과가 중요하거나 의미있다는 뜻이 아니다.
  • 관측된 효과가 어느정도나 큰지를 객관적이고 표준화된 방식으로 축정 (상관계수, 승산비..)
  • 효과크기는 어떤 효과의 중요도를 객관적으로 측정한 것
  • 효과크기를 계산 할때는 주어진 하나의 표본으로 계산 
  • 모집단 효과크기를 좀 더 잘 추정하기 위해 같은 질문을 연구하는 서로 다른 여러 연구 결과의 효과크기들을 결합 (메타분석)