회귀의 소개
상관 분석에서 두 변수 사이의 관계가 양인지, 음인지 확인을 했다면, 회귀 분석에서는 두 변수 사이의 관계가 음일 경우, 얼마나 음으로 만드는지 예측할 수 있음
회귀 분석 : 하나 이상의 독립변수(IV : Independent variable)들로부터 종속변수(DV : Dependent variable)의 값들을 예측하는 것
- 단순회귀(simple regression) : 한 예측변수로부터 한 결과변수를 예측하는 것
- 다중회귀(multiple regression) : 여러 개의 예측변수들로부터 한 결과변수를 예측하는 것
위처럼 자료에 적합시키는 모형이 있을 때, 회귀분석에서는 그 모형은 선형(linear) 모형임
결과i = (모형) + 오차i
1. 직선에 관한 중요한 정보 몇 가지
어떤 직선이라도 두 가지 요소로 정의할 수 있음
예측 변수 X를 이용해서 결과 변수 Y를 예측할 때는, 아래와 같이 정의가 됨
- b0 : 절편(선의 그래프의 수직축(y축)과 만나는 점)
- b1 : 기울기(경사도)
- εi : 잔차 항(residual term) 모형이 예측한 값과 실제 얻은 값의 차이
- Yi = (b0 + b1 * Xi) + εi
두 선의 기울기와 절편이 다르면, 그 두 선은 다름(기울기와 절편이 어느 한 직선을 정의함)
2. 최소제곱법
- 최소제곱법 : 자료에 가장 잘 맞는 선을 찾는 한 방법
- 각 잔차(residual)들의 제곱합(SS : sum of squared differences)
- 최량적합선(line of best fit) : 자료점들에 대해 그릴 수 있는 모든 직선 중 관측된 자료점과 선의 차이가 가장 적은 것을 고른 것
- 위의 최소제곱법을 사용하여 최량적합선을 찾을 때, SS가 제일 작은 선이 최량적합선
- 이러한 최량적합선을 회귀선(regression line)이라고 부름
- 일반적으로는 회귀모형 중 하나임
3. 적합도 평가 : 제곱합, r, R2
최량적합선을 찾았다면, 그 선이 실제 자료에 얼마나 잘 들어맞는지 평가하는 것이 중요
→ 자료에 대한 선의 적합도(goodness-of-fit)를 평가해야함
최량적합선을 평가하려면 이 공식으로 구한 적합도를 다른 어떤 것과 비교를 해야하는데, 일반적으로 우리가 사용하는 가장 기본적인 모형은 평균임
- 총제곱합(SST) : 평균 모형이 예측한 값과 관측값의 차이의 제곱들의 합
- 평균 모형이 관측 자료에 얼마나 잘 들어맞는지를 나타냄
- 잔차제곱합(SSE) : 최량적합선 모형이 예측한 값과 관측값의 차이의 제곱들의 합
- 최량적합선 모형이 관측 자료에서 얼마나 벗어나는지를 나타내는 척도
- 회귀제곱합(SSR) : 평균 모형이 예측한 값과 최량적합선 모형이 예측한 값의 차이의 제곱들의 합
- 회구모형을 사용했을 때, 예측이 얼마나 향상되는지를 나타냄
- R2 : 가장 기본적인 모형이 설명하는 변동의 양(SST)에 대한, 주어진 모형이 설명하는 변동의 양(SSM)의 비
- R2 = SSR(회귀선이 설명하는 변동) / SST (총 변동)
- 이 값이 1에 가까울수록 좋은 모형
- F : F 검정 통계량은 체계적 변동의 양을 비체계적 변동의 양으로 나눈 값
- 회귀분석에서는 SSR(모형에 의한 향상)과 SSE(모형과 관측값의 차이)의 비로 나타냄
- SSR은 회귀선으로 설명되는 제곱합 → 체계적 변동 / SSE는 회귀선으로 설명되지 않는 제곱합 → 비체계적 변동
- 제곱합은 합한 차이들의 수에 의존하므로, 평균 제곱들의 합을 사용해야함 → MS(mean squares)
- MS를 구할 때는 제곱합을 자유도로 나누면 됨
- SSR의 자유도는 모형의 변수 개수(k개), SSE의 자유도는 회귀분석으로 추정하는 매개변수 개수를 관측값 개수에서 뺀 것(n - k - 1개) → 단순회귀에서는 k가 1이므로, 일반적으로 F(1, n-2)로 추정함
- F = MSR / MSE
- 해당 값도 높을수록 결과의 예측을 얼마나 향상시키는지 알려주는 지표
- 모형이 좋으면 MSR의 값이 높을 것이고(예측을 잘하고), MSE의 값은 작음(모형과 관측 자료의 차이)
4. 개별 예측변수의 평가
가장 기본적인 모형인 평균은 다음과 같은 직선임
- b0 : 관측된 자료의 평균
- b1 : 0
평균은 예측 변수의 수준이 어떻게 바뀌든 상관없이 항상 같은 기울기인 0을 가지고 있음
어떤 예측 변수가 결과를 유의미하게 예측한다면 우리는 해당 기울기 b1 값이 0과 달라야 하는 것을 알 수 있음 → t 검정으로 검사할 수 있음
여기서 t 통계량(t-statistic)은 기울기 b1 값이 0이라는 귀무가설을 검증함
t = (b관측 - b기대) / SEb = b관측 / SEb
- b관측 : 우리 모형이 예상한 기울기
- b기대 : 기울기 b1 값이 0이라는 귀무가설을 토대로 0이 됨
- SEb : 각 표본에서의 b1들의 표준오차
- 자유도 : N - p - 1 (N: 전체 표본의 크기, p: 예측 변수의 개수)
6. 다중회귀: 기초
다중회귀는 단순회귀와 달리 하나의 예측 변수로 결과 변수를 예측하는 것이 아닌, 여러 개의 예측 변수로 예측을 하는 것
예측변수가 여러 개인 다중회귀에 대해 구한 R2를 다중 R2라고 한다.
모형에 변수가 추가될 수록 R2이 점점 커져가므로, 아카이케 정보기준(akaike information criterion, AIC)를 적용할 수 있음 → 예측변수가 많을수록 벌점을 줌
- n : 모형의 사례 수
- SSE : 모형의 오차제곱합
- k : 예측변수 개수
AIC는 예측변수의 개수가 늘어날수록 값이 커짐 → 하지만 효과 크기가 아니므로 모형 1의 AIC와 모형 2의 AIC를 비교할 때, AIC가 더 작은 모형이 더 자료에 적합하다고 말할 수는 있지만, AIC가 1000이라고 크다고 볼 수 있다거나, 10이여서 작다고 볼 수 있다와 같은 근거로 사용할 수 없음 → 이를 보완하기 위해서 베이즈 정보기준(Bayesian information criterion, BIC)를 사용함
여러 회귀 방법
- 위계적 방법(hierarchical regression)
- 과거 연구에 기초해서 예측변수들을 선택하되, 그 예측변수들을 모형에 도입하는 순서를 실험자가 결정
- 일반적인 규칙은 알려진 변수들을 먼저 도입하고, 결과 예측의 중요도가 높은 것부터 도입하는 것
- 새 변수를 통째로 한 번에 도입할 수도 있고, 단계별로, 위계적으로 도입할 수 도 있음
- 강제 도입법(forced entry method)
- 모든 예측변수를 모형에 동시에 도입하는 것
- 선택된 예측변수들을 도입할 튼튼한 이론적 이유가 존재할 때 바람직
- 단계별 방법
- 모형에 예측변수들을 도입하는 순서를 순수한 수학적 기준에 결정함
- 단계적 회귀분석을 수행할 때는 방향이 중요함
- 전진 : 상수가 하나만 있는 모형에서부터 시작하여 결과변수를 잘 예측하는 변수를 하나씩 찾고, 무한정 값을 추가하는 것이 아닌 AIC가 더 낮아지지 않으면 변수 추가를 중단
- 후진 : 모든 가능한 예측변수를 모형에 추가한 후, 변수를 하나씩 제거하면서 AIC가 낮아지는 점검함 → AIC가 증가할 때까지 계속 진행
- both : 양방향도 존재
- 후진 방법이 전진 방법보다 좋음 → 억제인자 효과(suppressor effects) 때문임
- 억제인자 효과는 예측변수가 효과를 가지되 다른 어떤 변수를 고정했을 때만 효과를 가지는 경우
- 전부분집합 방법
- 변수들의 모든 조합을 시도해서 최량적합을 찾음
단계적 방법은 과대적합과 과소적합의 위험이 있으므로, 단계적 회귀가 필요하다면 타당성검사(cross-validation)을 수행해야 함
7. 회귀모형의 정확도 평가
1. 회귀모형의 평가 1: 진단
이상치가 존재하면, 이상치 하나로 인해서 회귀모형이 크게 변하게 되고, 그에 따라 잔차들도 크게 바뀜
일반적으로 이상치는 잔차가 매우 큰데, 얼마만큼 커야지 이상치로 볼지 아닐지에 대한 기준을 정하기 위해서는 표준화할 필요가 있음
일반적으로 구하는 잔차는 비표준화잔차(unstandardized residual)에 해당하는데, 표준화잔차(standardized residual)를 구하기 위해서는 잔차들의 표준편차로 나눠주면 됨
결국 표준화잔차는 잔차를 z 점수로 변환한 것으로 다음과 같은 기준으로 표준화잔차를 이용할 수 있음
- z 점수가 3.29보다 큰 표준화잔차는 문제가 될 수 있음(평균적인 표본에서는 이 정도로 큰 값이 발생하기 힘듬 → 0.1%)
- 표준화잔차의 크기가 2.58보다 큰 표본사례들이 전체 표본 사례의 1%이상이라는 것은 모형의 오차 수준이 받아들일 수 없는 정도임
- 표준화잔차의 크기가 1.96보다 큰 표본 사례가 전체의 5% 이상이라는 것은 모형이 실제 자료를 잘 대표하지 않는다는 증거
모형의 잔차를 보고 이상치들을 찾는 것 외에도 모형의 매개변수에 지나치케 큰 영향을 주는 사례들을 살펴보는 것도 가능하다.
지렛대와 쿡의 거리는 책에서 자세히 나오지 않으므로, 아래 글을 참고하면 좋다.
지렛대(leverage) : 개별적인 데이터 표본 하나하나가 회귀분석 결과에 미치는 영향력
쿡의 거리 : 잔차와 지렛대를 이용하여 구하는 거리 → 레버리지가 커지거나 잔차의 크기가 커지면 쿡의 거리도 커짐
2. 회귀모형의 평가 2: 일반화
표본으로부터 얻은 모형으로 어떤 모집단의 결과를 얻으려면 다음과 같은 가정이 성립되어야 함
- 변수의 종류 : 모든 예측변수는 반드시 양적 변수 또는 범주형 변수(범주가 2개)이어야하고, 결과변수는 반드시 연속이자 비유계(unbounded) 양적 변수여야한다.
- 비유계 → 결과의 변동에 제한이 없어야 함 (ex. 결과 변수가 1~10 범위지만 수집된 자료에서 3~7의 범위만 있으면 자료가 제한된 것)
- 0이 아닌 분산
- 완전 다중공선성의 부재
- 외부 변수와는 무관한 예측변수 : 외부변수와 예측변수 사이에 상관관계가 존재하면, 이 모형을 설명할 수 있는 다른 외부 변수가 존재하므로 모형에서 얻은 결론을 믿을 수 없음
- 등분산성 : 예측변수들의 각 수준에서 잔차 항들의 분산이 일정해야 함
- 오차의 독립성 : 각 관측값들의 잔차들은 서로 독립적이어야 함 → 더빈-왓슨 검정으로 확인할 수 있음
- 오차의 정규분포
- 독립성 : 결과변수의 모든 값이 독립적이어야 함
3. 공선성
다중공선성(multicollinearity)은 회귀모형에 있는 둘 이상의 예측변수들 사이에 강한 상관관계가 존재하는 것을 말함 → 다중공선성이 있는 예측변수들을 사용하면, 이 예측변수들로 만들 수 있는 직선이 여러 개 나올 수 있기 때문에 피해야 함
공선성이 높으면 다음과 같은 문제점이 발생함
- b들을 믿을 수 없게 됨
- 공선성이 높아지면 b 계수들의 표준오차도 커져서 표본에 따른 b의 변동이 심해짐 → 높은 다중공선성은 b 값들의 신뢰성이 낮다는 것을 의미
- R의 크기가 제한
- R은 예측변수들과 결과변수 사이의 다중상관을 측정한 값이고, R2은 결과의 변동을 예측변수들이 어느 정도나 설명하는지를 의미하는데 다중공선성이 높은 예측변수들을 같은 모형에 높으면 R의 값의 큰 변동이 없음
- 그래서 예측변수들의 다중공선성이 낮을수록 어느 한 예측변수가 설명하지 못하는 변동을 다른 예측변수가 설명할 수 있게 됨
- 예측변수들의 중요도 평가가 어려움
- 예측변수들의 상관관계가 크고 결과 변동의 비슷한 부분을 설명하면, 두 변수 중 어떤 것이 더 중요한지 가리기 힘듬
다중공선성을 식별하는 방법은 모든 예측변수의 상관 행렬에서 상관계수가 아주 높은 쌍(.80 또는 .90 이상)을 찾는 것이지만, 이 방법은 거친 방법이라 미묘한 형태의 다중곤선성을 놓칠 확률이 큼
분산팽창인자(VIF : variance inflation factor)를 이용하여 공선성 진단을 내릴 수 가 있음
- VIF가 10 이상이면 걱정할 필요가 있고, 평균 VIF가 1보다 크면 다중공선성 때문에 회귀모형이 편향될 수 있음
'머신러닝 > 통계학' 카테고리의 다른 글
앤디필드 통계학 11장 공분산분석(ANCOVA) (0) | 2023.06.01 |
---|---|
앤디필드 통계학 8장 로지스틱 회귀 (0) | 2023.06.01 |
앤디필드의 통계학 6장 상관 (0) | 2023.05.02 |
앤디필드의 통계학 5장 자료검정 (0) | 2023.05.02 |
앤디필드의 통계학 2장 (1) | 2023.05.02 |