랜덤 포레스트 Random forest
·
머신러닝
결정트리의 과적합 한계를 극복하기 위해 나온 앙상블 모델. > 앙상블이란? 여러개의 weak model을 결합시켜서 학습하는 방법으로 배깅, 부스팅이 있다. 랜덤포레스트는 배깅을 이용한 모델이다. 다수의 트리를 사용하기 때문에 과적합이 나타나는 트리의 영향력을 줄일 수 있다 배깅 Bagging Bagging 이란 Bootstrap Aggregation의 약자로 중복허용하여 샘플링을 한 여러개의 약한 트리를 각각 학습 시킨다음, 학습한 모델에 테스트 데이터를 입력하고 나온 결과들을 투표를 통해 분류한다. 분류일 경우 최다 득표 값, 회귀일 경우 평균값을 사용한다. bagging features 사용될 속성제한으로 각 트리에 다양성을 줄 수 있다. 전체 속성 개수의 제곱근만큼 선택(ex. 총 속성이 25개면..
결정 트리 Decision Tree
·
머신러닝
분류, 회귀에 사용하는 모델. 데이터를 입력 받으면 특정 기준에 따라 데이터를 구분해나가는 방식이다. 불순도 impurity 해당 범주안에 서로 다른 데이터가 얼마나 섞여 있는지에 대한 수치. 한 범주에 하나의 데이터만 있다면 불순도가 최소(순도 최대) 서로 다른 두 데이터가 정확히 반반 있다면 불순도가 최대(순도 최소) 엔트로피 Entropy 불순도를 수치적으로 나타낸 척도. 엔트로피 1이면 불순도 최대, 0이면 불순도 최소 $$ Entropy = -\sum_i(P_i)log_2(P_i) $$ 예를 들어서 파란공 5개 빨간공 5개가 있는 상황 이라면 $$ E(A) = - \cfrac{5}{10}log_2\cfrac{5}{10} - \cfrac{5}{10}log_2\cfrac{5}{10} = - \fra..
로지스틱 회귀 logistic regression
·
머신러닝
이진 분류 시 사용하는 회귀 알고리즘. 각 피쳐들의 계수 log-odds 를 수한 후 시그모이드 함수를 적용하여 확률을 0~1 값으로 나타내서 분류 작업을 한다. 시그모이드 함수 출력결과가 항상 0에서 1사이 값이 되는 s 커브 함수 $$ y=\cfrac{1}{1+e^{-x}} $$ 승산(Odds) 사건 A가 발생하지 않을 확률 대비 일어날 확률의 비율 Odds = P(A) / 1 - P(A) P(A)가 1에 가까울수록 odds비는 양의 무한대로 발산, P(A)가 0이라면 0 (지수함수 그래프 같은 형태) 이항 로지스틱 회귀 분류문제를 풀기위해 연속형 변수인 y를 확률로 두고 식을 세워보기 확률은 0~1 범위이나 회귀식은 음의 무한대에서 양의 무한대 범위를 가지기 때문에 식이 성립하지 않음 확률을 승산(..
L1, L2 Regularization
·
머신러닝
Regularization 정규화 과적합을 막기 위한 기법중 하나. 회귀계수(coefficients)가 훈련 데이터에 너무 overfitting 되지 않도록 정규화 term을 더해주는 것. 제약조건을 걸어서 분산을 감소시켜 모델의 일반화 성능을 높일 수 있다. Norm 벡터의 크기를 표현하는 것 L1 norm $$ ||v||_1 = \sum_{i=1}^{n} |v_i| $$ 각 원소의 절댓값들의 합(맨하튼) L2 norm $$ ||v||_2 = (\sum_{i=1}^{n} |v_i|^{2})^ \frac{1}{2} $$ 두 점 사이의 직선거리(유클리디안 거리)로 최단 거리를 말한다. L1 regularization 모델 가중치의 L1 norm에 대해 패널티를 부과하는 방법. 불필요한 feature에 대응..
회귀 Regression
·
머신러닝
회귀란? 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계적 기법. 예측해야 하는 값이 연속적일때 회귀를 사용한다. 머신러닝 관점 - 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것(선형 방정식) $$ y = \alpha + \beta x + \varepsilon $$ 회귀 계수 추정 잔차(에러) = 실제 값 - 예측 값으로 이 잔차를 최소화 하는 것이 목적이다. 최소 제곱법 OLS(Ordinary least square method) : 잔차를 제곱한 것의 합이 최소가 되는 함수 y = f(x)를 구하는 방법. 잔차를 제곱하면 미분이 가능한 형태가 되서 기울기가 0인 지점을 찾을 수 있다. 평가지표 MSE(Mean squared error) : SSE를 표준화 한 개념 ..
분류 Classification
·
머신러닝
분류란? 입력 데이터를 몇개의 정해진 label로 분류하는 것 이진 분류 : 2개의 클래스 분류 다중 분류 : 3개 이상의 클래스 분류 분류 모델 결정트리, 랜덤 포레스트, 로지스틱 등 분류의 평가지표 오차행렬 Confusion Matrix 정확도 Accuracy : (TP+TN/Total) 전체 중 모델이 바르게 분류한 비율 정밀도 Precision : (TP/TP+FP) Positive로 분류한 것 중 실제로 Positive인 비율 재현율 Recall : (TP/TP+FN) 실제 Positive 중 모델이 Positive 라고 분류한 비율 조화 평균 F1 score : 정밀도와 재현율의 조화 평균 $$ F1\ score = 2 \cfrac{precision \times recall}{precision..
머신러닝이란
·
머신러닝
머신러닝이란? 데이터에서부터 학습하도록 컴퓨터를 프로그래밍 하는 것 훈련 세트에 데이터를 모아 학습 알고리즘에 주입. 학습 알고리즘이 모델 기반이면 훈련세트에 모델을 맞추기 위해 모델 파라미터 조정하고 새로운 데이터에서도 좋은 예측을 만들거라 기대. 알고리즘이 사례 기반이면 샘플을 기억하는 것이 학습이고 유사도 측정을 사용하여 학습한 샘플과 새로운 샘플을 비교하는 식으로 일반화. 어떤 문제에 사용할까? 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제 전통적인 방식으로 해결 방법이 없는 복잡한 문제 유동적인 환경 (새로운 데이터에 적응) 복잡한 문제와 대량의 데이터에서 통찰 얻기 머신러닝 시스템 종류 지도 학습 : 정답을 알려주며 학습 (분류, 회귀) 비지도 학습 : 정답 label 없이 비슷한 데..
T-test
·
머신러닝/데이터 분석
T-test란? 평균을 비교 할 수 있는 통계 가설 검정법 One sample t test 모집단 평균이 μ와 같은지 아닌지 검정 귀무가설 : 모집단 평균은 μ와 차이가 없을 것이다 대립가설 : 차이가 있을 것이다(크거나 작거나) 평균에 차이가 있을 때 평균보다 크다 작다를 검정하고 싶을 경우 유의수준은 한쪽 방향에서만 존재하게 된다 one tail 평균과 같다 같지 않다를 검정하고 싶을 경우 유의수준은 양쪽으로 나뉘어서 존재 two tail 만약 유의수준이 5%라면 한쪽에 2.5%씩 나뉨 검정하고 싶은 방법에 따라 one sample one tail, two tail 로 나뉜다!(헷갈리지 말것) Two sample t test 두 표본집단 간의 평균의 차이가 있는지 검정 귀무가설 : 표본집단 간 평균의..
검정통계량과 t-value 자유도
·
머신러닝/데이터 분석
검정통계량 test statistic 표본 통계량은 추정치이므로 추정 오차가 발생하며 그것을 표준오차라고 부른다는 것을 앞서 알아보았다. 검정 통계량은 “통계적 가설의 진위여부를 검정하기 위해” 표본으로부터 계산하는 통계량이다. 즉, 표본 통계량을 2차 가공한 것으로 생각하면 된다. t-value 두 대상이 평균적으로 얼마나 차이가 나는가를 표현한 정도 표본 평균은 항상 오차를 수반하므로 이 오차를 염두하면서 두 표본그룹의 평균 차이에 관한 지표를 만들어야 한다. 따라서 평균 차이에 불확실도를 나누는 방식으로 통계적 차이 지표를 만든다. 값이 클수록 평균의 차이가 많이 나는 것으로 두 표본 집단이 하나의 모집단에서 나왔을 것이라는 가정이 맞을 확률 또한 매우 낮다고 말할 수 있게 된다. T분포는 정규분포..