• 앤디필드의 통계학 1장

    2023. 5. 2.

    by. haong_

    이번에 데이터팀에서 새롭게 스터디를 하기로 했다. 책은 앤디필드의 통계학으로 원래 R로 구현되지만 우리는 파이썬을 사용하기 때문에 파이썬을 사용해서 코드를 짜면서 스터디를 진행 할 예정이다. (1, 2장은 코드가 없어서 정리만 있고 3, 4장은 환경세팅이어서 패스) 

    연구 과정 

    초기관측(자료) > 이론생성 > 가설 생성(변수 식별) > 이론검증을 위한 자료수집(변수 측정)  > 자료분석(자료 그래프 작성, 모형 적합)

    자료수집 - 무엇을?

    • 변수의 분류
      • 독립 변수 : 어떤 효과의 원인이 있다고 간주되는 변수, 실험적 연구에서 실험자가 조작하는 변수 
      • 종속 변수 : 독립변수의 변화에 영향을 받는다고 간주되는 변수, 하나의 결과 
    • 측정 수준 
      • 범주형 변수 :  범주들로 구성된 변수
        • 이분변수 : 남/여 같이 두개로 분류
        • 명목변수 : 사람, 고양이, 강아지 종처럼 셋 이상의 분류
        • 순서변수 : 등급 같이 순서가 존재하는 변수
      • 연속변수
        • 구간변수 : 측정 대상의 순서와 측정 대상간의 간격을 알 수 있는 변수 (온도..)
        • 비율변수 : 비율에도 의미가 있고, 절대적인 0의 값을 가지고 있는 변수(무게, 거리, 소득 등 소득이 200만원이면 100만원보다 실제로 2배 소득이 많은것)
    • 측정오차
      • 측정값과 실제값이 다른 경우의 오차
    • 타당성 : 측정하려고 하는 것을 측정했는지? (ex. 정자 운동성 측정하려고 했는데 측정장치는 개수를 세는 것이라면)
      • 기준 타당성 : 측정하려는 것을 장치가 실제로 특정하는지
      • 내용 타당성 : 측정이 대상을 얼마나 잘 대표하는지
    • 신뢰성 : 서로 다른 상황에서 측정장치를 일관되게 해석할 수 있는지
      • 검사-재검사 신뢰성 : 같은 검사 두번 진행시 두번 모두 비슷한 결과를 낼것

    자료수집 - 어떻게?

    • 상관연구 : 세상에서 자연스럽게 발생하는 일을 직접적인 간섭 없이 관찰하는 방식
    • 실험연구 : 변수하나를 조작해서 그것이 다른 변수들에 미치는 영향을 보는 방식
      • 제 3의 요소 : 특성이 알려지지 않은 어떤 제3의 인물이나 사물(중첩변수)
    • 자료 수집 방법
      • 독립설계(개채간 설계) : 참가자가 한번만 실험에 참여, 서로 다른 참가자 그룹이 각각 다른 조건을 경험, 참가자간의 개별 차이가 결과에 영향 주지 않는다.
      • 반복측정 설계(개체내 설계) : 같은 참가자가 여러번 측정. 참가자간 차이 제어할 수 있고 표본 크기가 작아도 효과적인 결과 얻을 수 있음
        • 연습효과, 권태 효과 같이 익숙해져서 생기는 문제를 고려, 카운터밸런싱(조건에 참가하는 순서 변경) 같은 기법 사용
      • 변동
        • 체계적 변동 : 독립변수의 조작이나 처리로 인해 관측된 결과에 영향을 주는 변동(연구자가 조작)
        • 비 체계적 변동 : 참가자간의 개인 차이 등에서 비롯되는 예측 할 수 없는 변동
          • 비체계적 변동을 최소화 해야 좀더 의미있는 측정 가능 > 참가자들 조건들에 무작위로 배정

    자료 분석

    • 도수분포(히스토그램) : 데이터의 분포를 나타내는 기법으로 일정 구간에 따라 분류한 후 각 구간에 속하는 데이터 개수를 요약한 표로 만듦
      • 정규 분포 : 좌우대칭의 종 모양의 분포
        • 왜도 : 분포의 비대칭도, 분포의 한쪽 꼬리가 다른 쪽에 비해 얼마나 긴지 측정
          • 왜도 > 0 : 양으로 기운 분포
          • 왜도 < 0 : 음으로 기운 분포
        • 첨도 : 분포의 뾰족한 정도
          • 첨도 > 0 : 급첨, 뾰족
          • 첨도 < 0: 완첨, 납작
    • 분포의 중심
      • 최빈값 : 가장 많이 나타나는 수
        • 이봉분포 : 최빈값 두개의 분포
        • 다봉분포 : 최빈값이 세 개 이상의 분포
      • 중앙값 : 수를 정렬후 중앙에 있는 값, 극단적인 점수에 비교적 영향 적게 받음
      • 평균 : 극단적 점수에 영향 받기 쉬움, 기울어진 분포에 영향을 받고 구간자료나 비율자료에만 사용할 수 있음. 모든 수를 사용하기 때문에 많이 사용
    • 분포의 산포도
      • 자료집합에서 점수들이 퍼져 있는 정도
        • 사분위수 : 데이터를 크기 순서대로 정렬한 후 4개의 동일한 부분으로 나누는 방법, 데이터의 중심경향, 분포 이상치 파악할때 도움
          • 제 1사분위수 : 데이터 하위 25% 값
          • 제 2사분위수 : 데이터 중앙값
          • 제 3사분위수 : 데이터 하위 75%
          • 사분위수 범위 : 3사분위수 - 1사분위수
    • 확률분포 : 확률변수가 가질 수 있는 값과 그 값이 발생할 확률을 나타내는 함수
      • z score : 각 데이터에 평균값을 빼고(중심을 0으로) 표준편차로 나눔(표준편차 1)
    • 가설 검정
      • 귀무가설 : 가설검정에서 처음부터 채택되는 가설로, 보통 효과가 없거나 차이가 없다는 주장을 나타냄. (ex. 두 집단의 평균에는 차이가 없다)
      • 대립가설 : 귀무가설에 대한 반대 주장, 보통 효과가 있거나 차이가 있다는 것 주장. (ex. 두 집단 평균에는 차이가 있다)
      • 통계적 가설검정에서는 귀무가설을 기본적으로 받아들이고, 주어진 데이터를 사용하여 귀무가설을 기각할 충분한 증거가 있는지를 검증한다.

    '머신러닝 > 통계학' 카테고리의 다른 글

    앤디필드의 통계학 5장 자료검정  (0) 2023.05.02
    앤디필드의 통계학 2장  (1) 2023.05.02
    선형회귀  (0) 2022.08.04
    상관관계  (0) 2022.08.04
    가설검정  (0) 2022.08.04

    댓글