회귀란?
데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계적 기법.
예측해야 하는 값이 연속적일때 회귀를 사용한다.
머신러닝 관점 - 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것(선형 방정식)
$$ y = \alpha + \beta x + \varepsilon $$
회귀 계수 추정
잔차(에러) = 실제 값 - 예측 값으로 이 잔차를 최소화 하는 것이 목적이다.
최소 제곱법 OLS(Ordinary least square method) : 잔차를 제곱한 것의 합이 최소가 되는 함수 y = f(x)를 구하는 방법. 잔차를 제곱하면 미분이 가능한 형태가 되서 기울기가 0인 지점을 찾을 수 있다.
평가지표
MSE(Mean squared error) : SSE를 표준화 한 개념 $$ MSE = \cfrac{1}{n-2}SSE $$ (a,b가 고정이므로 -2해줌)
RMSE : MSE에 루트 씌움
MAE(Mean Absolute Error) : 에러의 절대값
SSE : 관측치와 예측치의 차이(잔차)
SSR : 예측치와 평균의 차이
SST : 관측치와 평균의 차이
에러의 값을 최소화 하는 회귀계수 a,b 를 찾는 것이 목적!
결정계수 R2
모델이 얼마나 데이터를 잘 설명했는지 말해주는 지표로 0~1 범위이며 1에 가까울수록 적합한 모형이다.
실제값 분산 대비 예측값의 분산 비율, y 분산이 넓을수록 값이 작아짐(SSE가 커져서)
'머신러닝' 카테고리의 다른 글
결정 트리 Decision Tree (0) | 2022.06.14 |
---|---|
로지스틱 회귀 logistic regression (0) | 2022.06.14 |
L1, L2 Regularization (0) | 2022.06.14 |
분류 Classification (0) | 2022.06.14 |
머신러닝이란 (0) | 2022.06.14 |