본문 바로가기

개발/Basic Knowledge (Statics, LinearAlgebra)

표본조사

이전 내용을 가볍게 정리해보자.

통계학은 자료를 분석해서 자료를 정보화시키는 방법론이고, 아래 3단계를 거친다.

  1. 자료 수집 : 표본추출 (= sampling)
  2. 자료 요약 정리 : 기술통계학 (=Descriptive Statics)
  3. 결론 유추 및 추리 : 추측통계학 (=Inferential Statics)

이번 포스팅에서는 첫 번째 단계인 표본추출(=Sampling)에 대해 자세히 알아보자.

1.  자료 수집

통계는 어떤집단의 특성을 수량화하여 나타낸다고 볼 수 있다. 즉, 특정 지단에 속하는 각 개체 단위들에 대한 정보를 먼저 수집해야하는 것이다. 이를 하기위한 방법으로 아래와 같은 것들이 존재한다.

  • 수집방법
    • 실험 (Experience)
    • 조사 (Survey)
    • 출판 자료(Published Data)
  • 조사방법
    • 전수조사 (Census) : 관심있는 모집단 전체를 조사하는 방법으로 규모가 작을 경우에 실시한다.
    • 표본조사 (Sample) : 모집단에서 추출된 일부분인 표본을 가지고 행하는 조사로 모집단의 규모가 측정하기 어려울때 사용한다.

2. 표본조사

조사를 진행할 관심대상은 매우 광범위하고 다양하다. 우리는 그 중에서 일부만 추출하여 그 자료를 분석함으로써 우리의 관심대상 전체에 대한 결론을 도출한다. Fisher의 모집단과 표본에 대한 개념이 중요하게 작용한다.

즉, 정의를 내려보면 다음과 같다.
모집단(Population) : 관심 있는 연구대상 전체의 집합
표본(Sample) : 실제로 조사 및 측정되는 모집단의 일부

모집단은 또 2가지로 구분될 수 있다.
무한모집단 : 모집단의 크기가 무한한 경우
유한모집단 : 모집단의 크기가 유한한 경우

각 집단에서의 수치값을 나타내는 용어와 명칭이 다른데 이를 알아보도록 하자.

(1). 모집단(=Population)

(1)-1. 모수(Parameter)

모집단에 대한 수치 특성값을 말한다. 모집단의 특성을 나타내는 양적인 측도로서 주어진 모집단을 따르는 고유의 상수이다. 이는 실제값을 의미한다.

모집단의 평균은 `\mu`로 표현하고 '뮤'라고 읽는다. 또한 모집단의 분산은 `\sigma`로 표현하고 '시그마'라고 읽는다.
예시) 평균신장, 평균세금액

(2). 표본(=Sample)

(2)-1. 통계량(statics)

통계량은 표본에서 얻은 수치 특성값을 말한다. 표본의 특성을 나타내는 양적인 측도로서 모집단의 분포를 따르는 확률변수이다.

표본의 평균은 표본평균이라고 하고 기호로 `\bar{X}`로 표현한다. 표본의 분산 역시 표본분산이라고 하고 `s`로 표현한다.
예시) 우리나라 고등학교 1학년 중에서 1000명만 뽑아 조사하여 얻은 평균 사교육비

이렇게 구분되는 모집단과 표본은 왜 중요할까? 아래 2가지 이유를 들수있다.

  • 조사불가능 : 모집단 전체를 대상으로 조사하기는 불가능함
  • 시간과 비용 : 모집단을 다 조사하는 데 많은 시간과 비용이 소요됨

표본을 통한 조사를 진행할 경우 모수와 표본 통계량 사이에 필연적으로 오차가 발생할 수밖에 없다. 이를 표본오차(Sampling error)라고 하며 아무리 표본을 크게 해도 전수조사를 행하지 않는 이상 존재하기 마련이다. 통계학에서 표본의 크기를 크게하라고 하는 이유는 최대한 이 표본오차를 줄이기 위해서이다. 이러한 표본오차의 허용범위를 확률로 구하는 것이 가설검정이다. 이는 추후에 자세히 다루도록 하겠다.

단, 주의할 점이 있다.
우리가 실제로 알고 싶은 것은 표본의 값(통계량:statics)이 아닌 모집단의 값(모수:parameter)이다.
즉, 표본추출로 파악한 자료들을 가지고 모집단의 값을 유추해야하며 이를 일반화(Generalization)라고 한다!

3. 일반화

추출된 표본이 올바른 표본추출방법으로 추출되었기 때문에 이 표본을 통해 구한 값이 모집단의 값을 대표할 수 있다는 것을 의미한다. 이를 표본의 대표성(=Representativeness)라고 하고 보통 연구보고서의 앞부분에 기술 통계학을 이용한 표본의 특성 및 연구조사방법에 대해 서술한다고 한다.

4. 표본조사 방법

표본조사에 사용되는 기본 용어를 알아보자. 이제까지 사용했던 용어들과 개념들이라 어렵지 않다!

  • 기본단위(elementary unity) : 조사의 대상이 되는 가장 최소의 요소
  • 모집단(population) : 관심을 가지고 특성을 알아보고자 하는 집단에 속하는 모든 기본단위들의 집합
  • 목표모집단(target population)
  • 추출단위(sampling unite) : 모집단에서 표본을 추출하기 위해 설정한 기본단위의 집합
  • 추출틀(sampling frame) : 모집단에 속하는 모든 추출단위의 목록

이러한 표본조사 방법은 크게 '확률추출'과 '비확률추출'로 나누어진다. 이들을 자세히 알아보자.

(1) 확률추출

모집단에 속하는 모든 추출단위에 대해 사전에 일정한 추출확률이 주어지는 표본추출법이다.
앞으로도 계속 사용될 Random의 의미를 먼저 짚고가자.
이 용어가 나오면 우리는 기존에 알던의미와 조금 다르게 해석해야한다. (어떻게 보면 의미 그대로의 해석이라고도 할 수 있다.)
무슨 말이냐면, 흔히 아는 random의 의미는 '아무렇게나', '규칙이 없게'로 해석할 수 있다. 통계학에서의 랜덤은 추출하는 사람의 주관을 일체 배제시키는 것에서 큰 의의를 가진다. 다르게 말하면 모집단을 구성하는 요소 하나하나가 뽑힐 확률이 동일한 상황에서 뽑아야 랜덤하게 뽑았다고 말할 수 있는것이다.

(1)-1. 단순임의추출(simple random sapling)

단순임의추출은 위의 Random의 의미를 가장 직관적으로 관통하는 추출방식이다.
보통 모집단 전체에 대한 추출틀(sample frame)이 있어야 하고 실제로는 난수표를 이용한 샘플링이 보편적이다.
예시를 보고 이해해보자.
ex) 현대카드 소지자 중에서 1000명을 대상으로 하여 행운권을 추첨한다. '현대카드 소지자'라는 추출틀이 있고 이에 해당하는 대상자 중 행운권을 추첨하므로 모두가 동등한 확률을 가지고 선발되는 경우이다.

(1)-2. 계통추출법(systematic sampling)

모집단의 추출틀에서 k번째 간격마다 하나씩 표본으로 추출하는 방식이다.
처음 추출은 난수표로 한 개의 표본을 추출하고 그 난수표에 일정숫자를 더해서 표본을 추출하게 된다.
표본추출의 단위가 클 때 주로 이용하며 모집단이 무한모집단일 경우 사용하게 된다. 예시를 보자.
ex) 대통령 선거 시 사전조사를 위해 선거구 출구에서 매 20번째 나오는 사람을 대상으로 조사를 진행한다.

(1)-3. 층화임의추출(stratified random sampling)

모집단을 먼저 서로 겹치지 않는 여러 개의 층으로 분할한 후, 각 층별로 단순임의추출법을 적용시켜 표본을 얻는 방법이다.
여기서 '층화'란 표본을 추출하는 과정이 아닌 추출을 위해 모집단을 몇 개의 부분으로 나누는 작업을 의미한다. 예시를 보자.
ex) K대학교 학생들의 주당 평균 학습시간을 계산하기 위해 단과대학별, 학년별, 성별 등을 고려하여 학생을 추출한다.

(1)-4. 군집추출법(cluster sampling)

지역(geographical area)을 기본으로 추출하는 법이다. 서로 인접한 기본단위들로 구성된 군집을 만들고, 추출된 군집 내의 일부 또는 전체를 조사하며 표본추츨틀을 모를 때 사용가능하다. 실제로 표본을 추출할 때는 이제까지의 추출방법 중 하나만 사용하는것이 아닌 여러개를 적당하게 혼용하여 사용한다. 예시를 보자.
ex) 서울시에 거주하는 성인들의 개인당 월평균 소득

(2) 비확률추출

추출단위가 표본에 추출될 확률을 객관적으로 나타낼 수 없는 표본추출법이다. 가볍게 보고 넘어가자.

  • 편의표출(convenience sampling)
    • 연구자가 이용 가능한 대상을 임의대로 선택
  • 할당법(Quota sampling)
    • 모집단으로부터 층화를 나눈 후에 편의표출을 이용해서 표본추출
  • 포커스 그룹(Focus Groups)
    • 깊이 있는 연구를 위해 대표하는 사람을 추출(= panel)