머신러닝/통계학

데이터분석 연구과정과 종류

haong_ 2022. 8. 2. 16:15

통계학이란?

어떤 현상을 관측하고 가설을 세우고 자료를 수집하고 분석하고 가설을 검증하는 것

기술통계 : 데이터의 중요 특성을 정량적으로 설명하는 분야 (count, mean, standard dev 등), 시각화 가능
현재 데이터 집합을 보여주는 것

추론통계 : 전체 모집단에 대한 추론을 하기 위해 모집단으로 부터 추출한 샘플을 확률이론을 사용하여 추론 (카이제곱, t검정 등)

모집단과 표본 

  • 모집단 population : 정보를 얻고자하는 관심 대상의 전체 집합
  • 모수 parameter : 모집단을 조사하여 얻을 수 있는 통계적인 특성치를 규정짓는 척도(모 평균, 모 분산, 모 비율 등)
  • 표본 sample : 모집단에서 추출한 개체의 집합, 모집단의 전체 데이터를 얻을 수 없으므로 모집단의 특성을 나타내는 모수를 파악하여 모집단의 특성을 파악하고자 한다
  • 통계량 : 표본의 몇몇 특징을 수치화한 값

연구방법 

양적 연구 방법 : 어떠한 자료를 바탕으로 이를 수량화시킨 자료를 통해 분석하고자 하는 연구
질적 연구 방법 : 연구자의 직관적인 통찰로 사회 문화 현상의 의미를 해석하고 이해하려는 연구

데이터 분석과정 

초기 관측(연구질문) > 이론 생성 > 가설 생성 > 이론 검증을 위한 자료 수집

자료 수집

독립변수 예측변수 : 어떤 효과의 원인이 된다고 간주되는 변수. 실험적 연구에서 실험자가 조작하는 변수.
종속변수 결과변수 : 독립변수의 변화에 영향을 받는다고 간주되는 변수. 하나의 결과 

측정수준 level of measurement

범주형변수(categorical)
개체를 서로 구별되는 범주로 나눔
이진 변수 변수가 두개 구매/비구매, 예/아니오
명목 변수 범주가 셋이상 직업분류, 셋 이상의 카테고리
순서 변수  명목변수와 같되 범주들에 논리적 순서 존재 시험점수(A~F), 등급, 랭킹
연속변수(countinous)
객체에 특정 척도의 점수 부여
구간 변수 변수 축에서 길이가 같은 두 구간은 속성 측정치들의 동일한 차이를 나타냄 점수평사(0~10점) 3, 5점의 차이와 7, 9점의 차이는 2점으로 동일
비율 변수 구간변수와 같되 척도상에서 점수들의 비율에도 의미가 있음 강의 난이도 4점응로 평가한 사람은 2점으로 평가한 사람보다 실제로 두배 어렵다는 뜻

측정오차 measurement error 

나와야 할 측정 결과(측정값)에 어떠한 요소가 영향을 미쳐 측정 결과가 달라졌을 때, 그 차이를 측정오차라 한다. 

타당성 : 측정장치가 우리가 측정하고자 하는 것을 실제로 측정했는지의 여부 또는 정도
신뢰도 : 서로 다른 상황에서 측정 장치를 일관되게 해석 할 수 있는지의 여부 

상관연구

세상에서 자연스럽게 발생하는 일을 직접적인 간섭 없이 관찰하는 방식, 상관은 두 개 이상의 변수간의 관계를 뜻하는 것으로 상관연구는 변수의 통제나 조작이 어려운 경우에 자연적인 상황에서 변수 간의 관계를 조사하는 것이다.

단점

- 서로 다른 변수들의 시간관계에 대해 알 수 없음
- 제 3의 요소 (신발사이즈와 영어 성적)

실험연구

변인들 간의 관계를 발견하기 위해서 통제된 상황을 만들고 독립변인을 인위적으로 조작하여 그것이 종속변인에 미치는 영향을 객관적인 방법으로 측정하여 분석하는 연구방법 (예. A/B 테스트)

자료수집 방법 

그룹간 설계
개체간 설계
독립 설계
개채내 설계
반복측정 설계
서로 다른 그룹의 사람들이 실험 조건에 참여하는 방식 같은 참가자들을 이용해서 독립변수를 조작하는 것 
각 그룹에 배정된 참가자들의 특성 차이가 있을 수 있다 시기에 따라 참가자의 수행방식에 영향을 미칠 수 있다

변동 variation

비체계적 변동 : 알 수 없는 요인 때문에 생기는 차이
체계적 변동 : 실험적 조작에 의해 생기는 차이 

체계젹 변동이 비체계적 변동보다 커야 실험효과가 증가

임의화 randomization

반복측정 설계에서 비체계적 변동의 원인 두가지 
연습효과 : 실험 상황이나 측정방식에 익숙해져서 둘째 조건에서는 이전과 다르게 행동
권태효과 : 첫 조건을 마치고 지치거나 지루해져 둘째 조건에서는 이전과 다르게 행동

이런 효과를 완전히 없애지는 못하지만 조건에 참가하는 순서를 바꾸고 임의화를 적용하여 위와 같은 비체계적 변동이 일어나지 않도록 할 수 있다. 

독립 설계 : 중첩 변수들이 비체계적인 변동에만 기여하고 체계적 변동에는 기여하지 않게 하는 것.