앤디필드 통계학 11장 공분산분석(ANCOVA)
·
머신러닝/통계학
10장의 분산분석을 결과변수에 영향을 주는 변수들도 고려해야 하는 상황으로 확장 한 것. 종속 변수와 독립변수 사이의 관계를 평가하고 그룹 간의 평균 차이를 비교해 유의미한 차이를 판단하는 분석방법. 공분산분석이란 공변량 : 독립변수 외에도 종속변수에 영향을 미치는 변수. 공변량은 포함한 분석은 종속변수와 독립변수 간의 관계를 더 정확히 평가할 수 있도록 도와준다. 이 측정된 공변량을 포함하는 분산분석을 가리켜 공분산분석이라고 함. 그룹내 오차 변동 감소 “설명되지 않은” 변동(SSR) 일부를 다른 변수들로(=공변량)로 설명할 수 있다면 오차의 변동이 줄어드는 효과. 독립변수의 효과를 좀 더 정확하게 평가 할 수 있게 됨. 중첩변수 제거 종속변수에 영향을 미치는 변수들의 편향을 확인하고 제거 할 수 있음..
앤디필드 통계학 8장 로지스틱 회귀
·
머신러닝/통계학
앤디필드 통계학 7장 회귀
·
머신러닝/통계학
회귀의 소개 상관 분석에서 두 변수 사이의 관계가 양인지, 음인지 확인을 했다면, 회귀 분석에서는 두 변수 사이의 관계가 음일 경우, 얼마나 음으로 만드는지 예측할 수 있음 회귀 분석 : 하나 이상의 독립변수(IV : Independent variable)들로부터 종속변수(DV : Dependent variable)의 값들을 예측하는 것 단순회귀(simple regression) : 한 예측변수로부터 한 결과변수를 예측하는 것 다중회귀(multiple regression) : 여러 개의 예측변수들로부터 한 결과변수를 예측하는 것 위처럼 자료에 적합시키는 모형이 있을 때, 회귀분석에서는 그 모형은 선형(linear) 모형임 결과i = (모형) + 오차i 1. 직선에 관한 중요한 정보 몇 가지 어떤 직선이라..
앤디필드의 통계학 6장 상관
·
머신러닝/통계학
두 변수 사이 관계는 다음과 같이 세 종류가 존재함 양의 상관 무상관 음의 상관 공분산과 상관계수라는 두 변수의 관계를 표현하는 방법을 배운다 관계를 측정하는 방법 공분산(covariance) 공분산의 개념을 이해하기 위해서는 우선 분산의 개념을 다시 이해할 필요가 있음 분산공식 x̄는 표본의 평균, xi는 주어진 자료점, n은 관측값들의 개수 분산은 한 변수 내에서의 변화 정도를 확인할 수 있음 두 변수의 관계를 파악하기 위해서는 한 변수가 분산에서 벗어나는 방식과 다른 변수가 분산에서 벗어나는 방식이 비슷한지 확인해야 됨 각 변수가 평균으로부터 벗어난 정도인 편차들 사이의 유사성을 구체적으로 나타내면 우리는 두 변수 사이의 관계를 파악할 수 있음 고차곱 편차(cross-product deviation..
앤디필드의 통계학 5장 자료검정
·
머신러닝/통계학
5장부터 그래프가 나와서 코랩에 코드와 함께 정리했다. 여기에 쓰인 예제데이터는 하단의 링크에서 받을 수 있다. https://studysites.uk.sagepub.com/dsur/main.htm SAGE - Student and Instructor Site for Leadership, Fifth Edition About the Book Welcome to the Companion Website for Field, Miles & Field: Discovering Statistics Using R Hot on the heels of the award-winning and best selling Discovering Statistics Using SPSS 3rd Edition, Andy Field has ..
앤디필드의 통계학 2장
·
머신러닝/통계학
이번 장에서 배우는 내용 주어진 이론이 참인지 확인할 때에는 관측자료를 정확하게 반영하는 모형을 적합시키는 것이 중요 측도(measure): 변수를 측정한 값(정보)의 특성 예) 평균, 최빈값, 중앙값 등 척도(scale): 변수의 특성 및 이를 측정하는 기준 예) 명목, 서열, 등간, 비율 통계적 모형의 구축 설명하고자 하는 현상이 어떤 것이든, 그 현상에 관한 가설을 만들고 자료를 수집해서 그 가설을 검증하는 과정이 필요함 → 이러한 과정에는 통계적 모형을 구축하는 활동이 포함됨 현실 세계에 우리가 만든 가설이 어떻게 작동하는지 예측하기 위해 자료를 수집하고 그 자료를 이용해서 통계적 모형을 구축함 → 이 통계적 모형이 실제 세계를 어느 정도나 대표하는지 나타날 때 모형의 적합(fit)이라는 개념을 ..
앤디필드의 통계학 1장
·
머신러닝/통계학
이번에 데이터팀에서 새롭게 스터디를 하기로 했다. 책은 앤디필드의 통계학으로 원래 R로 구현되지만 우리는 파이썬을 사용하기 때문에 파이썬을 사용해서 코드를 짜면서 스터디를 진행 할 예정이다. (1, 2장은 코드가 없어서 정리만 있고 3, 4장은 환경세팅이어서 패스) 연구 과정 초기관측(자료) > 이론생성 > 가설 생성(변수 식별) > 이론검증을 위한 자료수집(변수 측정) > 자료분석(자료 그래프 작성, 모형 적합) 자료수집 - 무엇을? 변수의 분류 독립 변수 : 어떤 효과의 원인이 있다고 간주되는 변수, 실험적 연구에서 실험자가 조작하는 변수 종속 변수 : 독립변수의 변화에 영향을 받는다고 간주되는 변수, 하나의 결과 측정 수준 범주형 변수 : 범주들로 구성된 변수 이분변수 : 남/여 같이 두개로 분류 ..
선형회귀
·
머신러닝/통계학
회귀란? 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계적 기법. 예측해야 하는 값이 연속적일때 회귀를 사용한다. 머신러닝 관점에서 - 데이터 기반에서 학습을 통해 최적의 회귀 계수(베타)를 찾아내는 것 $$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$ 회귀 계수 추정 잔차(에러) = 실제 값 - 예측 값으로 이 잔차를 최소화 하는 것이 목적이다. 최소 제곱법 OLS(Ordinary least square method) : 잔차를 제곱한 것의 합이 최소가 되는 함수 y = f(x)를 구하는 방법. 잔차를 제곱하면 미분이 가능한 형태가 되서 기울기가 0인 지점을 찾을 수 있다. 모형제곱합 SSE (설명된 변동) : 회귀직선이 예측한 값과 평균 모형이 ..
상관관계
·
머신러닝/통계학
공분산 $$ cov(x,y) = \cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{N-1} $$ 한 변수의 변화(분산)가 다른 변수의 변화 방식과 어느 정도나 부합하는지 두 편차의 값이 둘다 양수이거나 둘다 음수 이면 그 곱은 양수(편차의 방향이 같다), 하나만 음수면 음수(편차의 방향이 다르다) 이 곱을 교차곱 편차 이 교차곱 편차의 합을 N-1로 나눈 값을 공분산이라고 한다. 표준화된 공분산 > 상관계수 (피어슨 상관계수) $$ r=\cfrac{cov(x,y)}{s_x s_y} $$ $$ r=\cfrac{\Sigma(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\Sigma(x_i-\bar{x})^2 \times \Sigma(y_i-\bar{y})^2}} $$ r은..