이번에 데이터팀에서 새롭게 스터디를 하기로 했다. 책은 앤디필드의 통계학으로 원래 R로 구현되지만 우리는 파이썬을 사용하기 때문에 파이썬을 사용해서 코드를 짜면서 스터디를 진행 할 예정이다. (1, 2장은 코드가 없어서 정리만 있고 3, 4장은 환경세팅이어서 패스)
연구 과정
초기관측(자료) > 이론생성 > 가설 생성(변수 식별) > 이론검증을 위한 자료수집(변수 측정) > 자료분석(자료 그래프 작성, 모형 적합)
자료수집 - 무엇을?
- 변수의 분류
- 독립 변수 : 어떤 효과의 원인이 있다고 간주되는 변수, 실험적 연구에서 실험자가 조작하는 변수
- 종속 변수 : 독립변수의 변화에 영향을 받는다고 간주되는 변수, 하나의 결과
- 측정 수준
- 범주형 변수 : 범주들로 구성된 변수
- 이분변수 : 남/여 같이 두개로 분류
- 명목변수 : 사람, 고양이, 강아지 종처럼 셋 이상의 분류
- 순서변수 : 등급 같이 순서가 존재하는 변수
- 연속변수
- 구간변수 : 측정 대상의 순서와 측정 대상간의 간격을 알 수 있는 변수 (온도..)
- 비율변수 : 비율에도 의미가 있고, 절대적인 0의 값을 가지고 있는 변수(무게, 거리, 소득 등 소득이 200만원이면 100만원보다 실제로 2배 소득이 많은것)
- 범주형 변수 : 범주들로 구성된 변수
- 측정오차
- 측정값과 실제값이 다른 경우의 오차
- 타당성 : 측정하려고 하는 것을 측정했는지? (ex. 정자 운동성 측정하려고 했는데 측정장치는 개수를 세는 것이라면)
- 기준 타당성 : 측정하려는 것을 장치가 실제로 특정하는지
- 내용 타당성 : 측정이 대상을 얼마나 잘 대표하는지
- 신뢰성 : 서로 다른 상황에서 측정장치를 일관되게 해석할 수 있는지
- 검사-재검사 신뢰성 : 같은 검사 두번 진행시 두번 모두 비슷한 결과를 낼것
자료수집 - 어떻게?
- 상관연구 : 세상에서 자연스럽게 발생하는 일을 직접적인 간섭 없이 관찰하는 방식
- 실험연구 : 변수하나를 조작해서 그것이 다른 변수들에 미치는 영향을 보는 방식
- 제 3의 요소 : 특성이 알려지지 않은 어떤 제3의 인물이나 사물(중첩변수)
- 자료 수집 방법
- 독립설계(개채간 설계) : 참가자가 한번만 실험에 참여, 서로 다른 참가자 그룹이 각각 다른 조건을 경험, 참가자간의 개별 차이가 결과에 영향 주지 않는다.
- 반복측정 설계(개체내 설계) : 같은 참가자가 여러번 측정. 참가자간 차이 제어할 수 있고 표본 크기가 작아도 효과적인 결과 얻을 수 있음
- 연습효과, 권태 효과 같이 익숙해져서 생기는 문제를 고려, 카운터밸런싱(조건에 참가하는 순서 변경) 같은 기법 사용
- 변동
- 체계적 변동 : 독립변수의 조작이나 처리로 인해 관측된 결과에 영향을 주는 변동(연구자가 조작)
- 비 체계적 변동 : 참가자간의 개인 차이 등에서 비롯되는 예측 할 수 없는 변동
- 비체계적 변동을 최소화 해야 좀더 의미있는 측정 가능 > 참가자들 조건들에 무작위로 배정
자료 분석
- 도수분포(히스토그램) : 데이터의 분포를 나타내는 기법으로 일정 구간에 따라 분류한 후 각 구간에 속하는 데이터 개수를 요약한 표로 만듦
- 정규 분포 : 좌우대칭의 종 모양의 분포
- 왜도 : 분포의 비대칭도, 분포의 한쪽 꼬리가 다른 쪽에 비해 얼마나 긴지 측정
- 왜도 > 0 : 양으로 기운 분포
- 왜도 < 0 : 음으로 기운 분포
- 첨도 : 분포의 뾰족한 정도
- 첨도 > 0 : 급첨, 뾰족
- 첨도 < 0: 완첨, 납작
- 왜도 : 분포의 비대칭도, 분포의 한쪽 꼬리가 다른 쪽에 비해 얼마나 긴지 측정
- 정규 분포 : 좌우대칭의 종 모양의 분포
- 분포의 중심
- 최빈값 : 가장 많이 나타나는 수
- 이봉분포 : 최빈값 두개의 분포
- 다봉분포 : 최빈값이 세 개 이상의 분포
- 중앙값 : 수를 정렬후 중앙에 있는 값, 극단적인 점수에 비교적 영향 적게 받음
- 평균 : 극단적 점수에 영향 받기 쉬움, 기울어진 분포에 영향을 받고 구간자료나 비율자료에만 사용할 수 있음. 모든 수를 사용하기 때문에 많이 사용
- 최빈값 : 가장 많이 나타나는 수
- 분포의 산포도
- 자료집합에서 점수들이 퍼져 있는 정도
- 사분위수 : 데이터를 크기 순서대로 정렬한 후 4개의 동일한 부분으로 나누는 방법, 데이터의 중심경향, 분포 이상치 파악할때 도움
- 제 1사분위수 : 데이터 하위 25% 값
- 제 2사분위수 : 데이터 중앙값
- 제 3사분위수 : 데이터 하위 75%
- 사분위수 범위 : 3사분위수 - 1사분위수
- 사분위수 : 데이터를 크기 순서대로 정렬한 후 4개의 동일한 부분으로 나누는 방법, 데이터의 중심경향, 분포 이상치 파악할때 도움
- 자료집합에서 점수들이 퍼져 있는 정도
- 확률분포 : 확률변수가 가질 수 있는 값과 그 값이 발생할 확률을 나타내는 함수
- z score : 각 데이터에 평균값을 빼고(중심을 0으로) 표준편차로 나눔(표준편차 1)
- 가설 검정
- 귀무가설 : 가설검정에서 처음부터 채택되는 가설로, 보통 효과가 없거나 차이가 없다는 주장을 나타냄. (ex. 두 집단의 평균에는 차이가 없다)
- 대립가설 : 귀무가설에 대한 반대 주장, 보통 효과가 있거나 차이가 있다는 것 주장. (ex. 두 집단 평균에는 차이가 있다)
- 통계적 가설검정에서는 귀무가설을 기본적으로 받아들이고, 주어진 데이터를 사용하여 귀무가설을 기각할 충분한 증거가 있는지를 검증한다.
'머신러닝 > 통계학' 카테고리의 다른 글
앤디필드의 통계학 5장 자료검정 (0) | 2023.05.02 |
---|---|
앤디필드의 통계학 2장 (1) | 2023.05.02 |
선형회귀 (0) | 2022.08.04 |
상관관계 (0) | 2022.08.04 |
가설검정 (0) | 2022.08.04 |