내 삶에 대한 책임

신뢰구간과 t분포 본문

옛날기록/IFRS

신뢰구간과 t분포

자유  2011. 2. 28. 22:29

추정에는 점추정 (Point estimator)과 구간추정 (Interval estimation)이 있다.


점추정보다는 구간추정이 더 정확하며,
의사전달면에 있어서는 점추정이 명확하다.

"평균은 180cm"라고 말하는 것이, "평균은 175cm에서 185cm사이이다."라고 말하는 것보다 깔끔하게 들리는 것처럼 말이다.

구간추정은 이러한 한계를 보완하기 위해 오차범위+-3 ..과 같은 걸 쓴다.


Estimator 는 공식을, Estimate는 수치를 말한다.
올바른 추정을 하기 위해서는 좋은 Estimator를 써서 좋은 Estimate를 뽑아내야 한다.

좋은 Estimator의 속성에는 다음과 같은 3가지가 있다.

1. Unbiased
E(estimator)=parameter
이어야 한다.  이게 성립하지 않으면 biased되었다고 한다.

2. Efficient
Var(estimator1) < Var(estimator2) 일때
estimator1을 사용한 것이 더 효율적이라고 표현한다.
분산이 작으면 작을수록 더욱 정확하기 때문이다.

3. Consistent

이러한 의미에서 표본의 표준편차를 나타내는 s는 좋은 estimator라고 할 수 있다.
분모에 n이 아닌 n-1이 들어있는데, 이 역시 위의 3가지 조건을 만족시키기 위함이다.



Student-t분포

정규분포 Z를 나타내는데, 모집단의 표준편차를 알 수 있는 경우가.... 현실적으로 거의 불가능하리라 여겨진다.
이 때 표본의 표준편차 s를 쓰는데, 대신에 정규분포 N 말고 student-t distribution을 사용한다.

 90%  1.645
 95%  1.960
 99%  2.575

위의 표는 z-분포일 때, 위의 신뢰도를 가지고 측정하면 된다.

t-분포를 알아볼 때에는 a/2, 보고자 하는 확률값과 자유도 (샘플사이즈 n-1) 만 있으면 된다.

참 편리한 방법이다.




샘플수가 무한히 커지면 t분포는 표준정규분포와 비슷한 모양을 띄게 된다.
보통 통계학자들은 이 수가 30이상이라고 한다.


  Small sample ( n < 30 )  Large sample ( n ≥ 30)
 Normal + known Var  z-statistic z-statistic 
 Normal + unkown Var  t-statistic t-statistic*
 Nonnormal + known Var  X z-statistic 
 Nonnormal + unknown Var  X  t-statistic*



*를 한 곳은 z-를 써도 괜찮다. 정확히 하려면 t-분포를 써야하지만 :)


통계.....!!!!
물론 100% 확신할 수는 없지만
공부하면 할수록 ...참 기특한 녀석이라는 것을 느낀다 ^^
수많은 데이터를 insightful하게 압축해주는 이 어찌 파워풀하지 아니한가~

 

'옛날기록 > IFRS' 카테고리의 다른 글

무형자산의 분류와 영업권·개발비  (0) 2011.03.01
가설검정  (0) 2011.02.28
감가상각 방법  (0) 2011.02.28
표본추출과 추정  (0) 2011.02.28
유형자산 정리  (2) 2011.02.28