머신러닝/통계학

선형회귀

haong_ 2022. 8. 4. 23:33

회귀란?

데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계적 기법.
예측해야 하는 값이 연속적일때 회귀를 사용한다. 
머신러닝 관점에서 - 데이터 기반에서 학습을 통해 최적의 회귀 계수(베타)를 찾아내는 것

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$

회귀 계수 추정

잔차(에러) = 실제 값 - 예측 값으로 이 잔차를 최소화 하는 것이 목적이다. 

최소 제곱법 OLS(Ordinary least square method) : 잔차를 제곱한 것의 합이 최소가 되는 함수 y = f(x)를 구하는 방법. 잔차를 제곱하면 미분이 가능한 형태가 되서 기울기가 0인 지점을 찾을 수 있다. 

모형제곱합 SSE (설명된 변동) : 회귀직선이 예측한 값과 평균 모형이 예측한 값의 차이, 회귀 모형을 사용 했을 때 평균에 비해 부정확도가 얼마나 줄어들 것인지 보여줌 
잔차제곱합 SSR (설명안된 변동) : 회귀직선을 모형으로 사용해서 모형이 예측한 값과 관측값의 차이
총 제곱합 SST (총 변동) : 평균을 모형으로 사용해서 평균값(모형이 예측한 값)과 관측값의 차이

회귀모형에서 결정계수

총 변동에 대한 주어진 모형이 설명하는 변동의 양의 비 

$$ R^2 = \frac{SSE}{SST}= \cfrac{\Sigma(\hat{y}_i-\bar{y})^2}{\Sigma(y_i-\bar{y})^2} $$

상관계수 R^2 와 같음
단순 회귀에서 상관계수 r은 회귀모형의 전반적인 적합도를 잘 추정하는 값이며 R^2은 상관관계의 실질적인 크기를 잘 추정하는 값 

평가

F-ratio : 추가 

MSE(Mean squared error) : SSE를 표준화 한 개념 $$ MSE = \cfrac{1}{n-2}SSE $$ (a,b가 고정이므로 -2해줌)
RMSE : MSE에 루트 씌움
MAE(Mean Absolute Error) : 에러의 절대값