내 삶에 대한 책임

표본추출과 추정 본문

옛날기록/IFRS

표본추출과 추정

자유  2011. 2. 28. 14:22

Sampling (표본추출)이란 전체 모집단에서 표본을 추출하는 것이다.


그럼 왜 표본을 추출하는가?
- 모수를 알고자 함이다.
- 그러나 전체 집단을 조사하기에는 time consuming, 너무 많은 자원이 낭비되기 때문이다.


Statistic (통계랑)에는 두 가지가 있다.

Descriptive statistics / Inferrential statistics

전자는 모수를 설명하기 위함이고,
후자는 모수를 추론하기 위함이다.

샘플링은 이 중에서 두 번쨰, 즉 모수를 추론하기 위하여 사용하는 방법을 말한다.


(참고: Descriptive statistic에는 평균, 분산 등이 사용된다. 모수를 압축적으로 설명하는 것이다)





샘플링하는 방법은 두 가지가 있다.

첫번째는 전체 모집단에서 무작위로 추출하는 Simple random sampling.
두번째는 Stratified ramdom sampling이라는, 전체 모집단을 구역으로 다시 나누어 여기서 또 샘플을 추출하는 방법이다.


예를 들면 대한민국에서 1000명의 샘플을 추출하는데,
Simple random sampling을 사용하면 대한민국 전체 국민 중 랜덤하게 1000명을 뽑는다.
Stratified ramdom sampling을 사용하면 대한민국을 다시 수도권/비수도권으로 나누어 여기서 각각 500명씩 1000명을 뽑는 것과 같다.



[ 기타 용어 ]
* Sampling error란 sample statistic과 population parameter와의 차이이다.
* Sampling distribution이란 sample statstic의 분포를 말한다.
보통 probability distribution은 sampling statistic의 다른 말이라고 생각해도 무방하다.





Central Limit Theorem (CLT: 중심극한정리)


중심극한 정리는 다음의 두 경우에 성립한다.


1. 모집단이 정규분포일 때
2. 샘플의 크기가 30개 이상일 때


1번에 따르면, 모집단이 정규분포이면 표본평균의 분포 또한 정규분포를 따른다.
2번에 따르면, 모집단이 어떤 분포를 하든, uniform이든 뭐든지, 샘플 크기가 30개 이상이면 표본평균의 분포는 정규분포를 따른다. 

한눈에 보기 쉽게 표로 정리하면 아래와 같다.

 표본평균의 분포가 정규분포인가?
 N < 30 N ≥ 30
X~N (O) YES YES 
X~N (X)  NO YES

 

표본 평균의 평균은 모집단의 평균과 같다.
표본 평균의 표준편차는 모집단의 표준편차를 표본의 크기로 나눈 것과 같다.




CLT는 굉장히 쉬운 것 같으면서도, 중요한 의미를 함축하고 있다.
모수를 추정하는 데 있어서 CLT만큼 좋은 것이 없기 때문이다.
즉 표본을 다시 평균내어, 그 평균의 분포를 살피어 모수를 최대한 가깝게 그려내고 있는 것이다.
샘플 30개로 표본의 평균을 나타낼 수 있다니, 놀랍지 아니한가?
인간이 과거를 정리하는 데 있어서의 통계의 역할이 지대했음이 짐작되는 바이다.



 





'옛날기록 > IFRS' 카테고리의 다른 글

가설검정  (0) 2011.02.28
신뢰구간과 t분포  (0) 2011.02.28
감가상각 방법  (0) 2011.02.28
유형자산 정리  (2) 2011.02.28
2009 기출 논술  (0) 2011.01.24