분류란?
입력 데이터를 몇개의 정해진 label로 분류하는 것
이진 분류 : 2개의 클래스 분류
다중 분류 : 3개 이상의 클래스 분류
분류 모델
결정트리, 랜덤 포레스트, 로지스틱 등
분류의 평가지표
오차행렬 Confusion Matrix
- 정확도 Accuracy : (TP+TN/Total) 전체 중 모델이 바르게 분류한 비율
- 정밀도 Precision : (TP/TP+FP) Positive로 분류한 것 중 실제로 Positive인 비율
- 재현율 Recall : (TP/TP+FN) 실제 Positive 중 모델이 Positive 라고 분류한 비율
- 조화 평균 F1 score : 정밀도와 재현율의 조화 평균
$$ F1\ score = 2 \cfrac{precision \times recall}{precision + recall} $$
정밀도와 재현율은 trade off 관계 > 임계값 설정으로 비율 조정 할 수 있음
목적에 따라 더 중요한 비율에 초점을 두고 설정해야 하며 재현율이 100%여도 정밀도가 1%라면 쓸모 없는 모델이 된다.
ROC 곡선
Roc curve : x축 - FPR y축 - TPR의 곡선
TPR : True Positive Rate 1을 1로 잘 예측한 비율
FPR : False Pisitice Rate(= 1 - TNR) 0을 1로 잘못 예측한 비율
특이도(specificity) : TNR False를 False로 잘 예측할 확률
재현율(TPR)이 높을수록 거짓 양성(FPR)이 늘어나는 비례관계에 있다. TPR을 높이다보면 FPR도 같이 높아져 값을 올리면 올릴수록 모든것을 1로 예측하게 되어버린다.
AUC(area under the curve)
곡선 아래 면적을 보기 쉽게 값으로 수치화 한 것. 베이스라인은 직선일 경우의 0.5이고 최대값은 1이다.
'머신러닝' 카테고리의 다른 글
결정 트리 Decision Tree (0) | 2022.06.14 |
---|---|
로지스틱 회귀 logistic regression (0) | 2022.06.14 |
L1, L2 Regularization (0) | 2022.06.14 |
회귀 Regression (0) | 2022.06.14 |
머신러닝이란 (0) | 2022.06.14 |