본문 바로가기

통계, 연구, 역학

모집단, 표본, 추정값 - 헷갈리는 용어 정리하기 ~ unbiased estimator란?

 

확률변수 $X$ 의 통계량(모멘트, 특성값)을 구할 때

  • 재료
    • $X$ 는 확률 변수, random variable
    • $p$ 는 확률 분포, probability distribution
    • $X_i$ 는 확률 변수의 값, possible value of the random variable, outcome, state
    • $p_i$ 는 확률 분포에서 해당 값의 확률, 개별 확률, 확률 밀도 (연속형), 확률 질량 (이산형), individual probability, probability density (연속형), probability mass (이산형, discrete)
  • 모멘트
    • $E[X]$ 는 기댓값, 평균, expected value, mean
      • $\sum p_iX_i$
    • $Var(X)$ 는 분산, variance
      • $Var(X) = E[(X-E(X))^2]$
    • $\sigma$ 는 표준편차, standard deviation
    • Central moments, 중심 모멘트: 확률분포의 중심(기댓값) 주변에서 분포의 형태를 나타내는 값들.
      • 공식:
        • $μ_k=E[(X−E[X])^k]$ (k번째 중심 모멘트)
      • 설명:
        • 1차 중심 모멘트: 항상 0
        • 2차 중심 모멘트: 분산(Variance) $σ^2=E[(X−μ)2]$
        • 3차 중심 모멘트: 왜도(Skewness)와 관련, 대칭성을 측정
        • 4차 중심 모멘트: 첨도(Kurtosis)와 관련, 분포의 꼬리 두께를 측정
    • skewness, 비대칭도, 외도:
      • $Skewness=\frac{E[(X−μ)^3]}{σ^3}$
      • 양수: 오른쪽 꼬리가 더 길다.
      • 음수: 왼쪽 꼬리가 더 길다.
    • kurtosis, 첨도:
      • $Kurtosis=\frac{E[(X−μ)^4]}{σ^4}$
      • 3: 높은 첨도, leptokurtic, 중심이 뾰족하고 꼬리 두꺼움 - 극단값 발생 확률 높음
      • <3: 낮은 첨도, platykurtic, 중심이 평평하고 꼬리가 얇음
      • 정규 분포의 첨도 = 3

모집단에 대해 Estimator을 구할 때

  • 모집단의 randomo variable $X$에 대해 possible outcomes, probability of the possible outcomes가 알려지지 않았을 때 sample data를 이용해 estimate함.
  • 재료
    • $\theta$는 모수, 모집단의 실제 값, parameter
    • $\hat{\theta}$는 추정량, 모수의 추정값, estimator
    • $X_i$는 $i^{th}$ observation of the sample
    • $p_i$는 표본 데이터에서 특정 observation이 나올 확률
    • $\mu$는 모집단의 평균 (parameter)
    • $\hat{\mu}$은 모집단 평균의 추정값 (estimator)
    • $\bar{X}$ 는 표본에서 구한 평균
      • $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$
      • 표본 추출이 모집단에서 랜덤하게 이루어졌다고 가정했을 때, 개별 표본 $X_i$ 는 모집단의 확률 분포를 따르는 확률 변수이므로, $X_i$의 기댓값 $E[X_i]$는 모집단의 기댓값 $E[X]=\mu$ 와 동일함.
      • (1)
        $\hat{\mu} = \bar{X}$ , 표본의 평균으로 모집단의 평균을 추정함
    • 표본평균의 기댓값
      • (2) $E(\bar{X}) \\ = E[\frac{1} {n}\sum_{i=1}^{n}X_i] \\ =\frac{1}{n}\sum_{i=1}^{n}E[X_i] \\ =\frac{1}{n}\sum_{i=1}^{n}\mu \\ =\frac{n\mu}{n} = \mu$
    • 불편 추정량, unbiased estimator : estimator의 기댓값이 parameter과 같을 때
      • $E[\hat{\mu}] \\ =E(\bar{X}) \ \ \ \ _{(1)}$
      • $=\mu \ \ \ \ _{(2)}$ 이므로 $\hat{\theta}$는 불편 추정량
      • 표본 분산 $s^2$은 모집단의 분산 $\sigma^2$에 대한 편향된 추정량임, baised estimator
    • $\sigma^2$은 모집단의 분산
      • $\sigma^2 = E[(X-E[X])^2]$
    • $\hat{\sigma}^2$은 모집단 분산의 추정값
      • biased estimator
        • $\hat{\sigma}^2 = s^2 = \frac{1}{n}\sum_{i}(X_i-\bar{X})^2$ 이라고 추정하는 것.
      • unbiased estimator
        • $\hat{\sigma}^2 = \frac{1}{n-1}\sum_{i}(X_i-\bar{X})^2$
          • 설명 1:
            • 추정을 할 때에는 실제 모집단의 기댓값 대신 표본의 평균을 쓰게 됨.
            • 표본 평균은 해당 표본 데이터 값들의 가운데에 위치하기 때문에 실제 모집단의 기댓값을 쓸 때보다 추정값이 작을 수밖에 없음. 그래서 n 대신 n-1로 나눔.
          • 설명 2:
            • 기댓값을 구할 때 값의 개수인 n으로 나누는 이유는 자유도가 n이기 때문임. 자유롭게 변할 수 있는 값 n개에 대한 기댓값이기 때문.
            • 분산의 추정값을 구할 때에는 $X_i$와 $\bar{X}$를 쓰기 때문에 전체 데이터 n개 중 하나는 고정될 수밖에 없음. 평균이 정해져있는 상태이기 때문에 n-1개의 데이터는 자유도를 갖지만 나머지 한 개의 데이터는 평균에 맞춰서 정해짐.
            • 그래서 n 대신 n-1로 나눔.
            • 분산의 추정값이 아닌 데이터의 분산 자체를 구할 때에는 평균이 n개의 데이터 모두에 따라 달라지는 것이기 때문에 자유도가 그대로 n임.
          • 설명 3:
            • 분산이 $\sigma^2$인 확률분포에서 추출된 n개의 샘플 $X_i$에 대한 표본분산 $s^2$의 기댓값 구하기
              • 표본의 데이터 $X_i$와 $\bar{X}$는 정해져 있는 상태
              • 모집단의 분산이 $\sigma^2$이라고 하고 랜덤추출을 했다고 가정했을 때 $X_i$는 분산이 $\sigma^2$인 확률분포를 따름.
              • 기댓값과 분산과의 다음 관계 (3) 와 표본평균의 분산 (4) 을 사용해서 식을 풀 것
                • (3)  $Var(X) = E[X^2] = (E[X])^2$
                • (4)  $Var(\bar{X}) = Var(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n^2}Var(\sum_{i=1}^{n}X_i) = \frac{n}{n^2}Var(X_i) = \frac{\sigma^2}{n}$
            • $E[s^2]$
            • $= E[\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2]$
            • $=\frac{1}{n} E\left[\sum_{i=1}^{n} X_i^2 - 2\bar{X} \sum_{i=1}^{n} X_i + \sum_{i=1}^{n} \bar{X}^2\right]$
            • $= \frac{1}{n} E\left[\sum_{i=1}^{n} X_i^2 - 2\bar{X} n\bar{X} + n\bar{X}^2\right] \\ = \frac{1}{n}(\sum_{i=1}^{n}E(X_i^2)-nE[\bar{X}^2])$
            • $= \frac{1}{n}(\sum_{i=1}^{n}(Var(X_i)+(E[X_i])^2) -n(Var(\bar{X}))-n(E[\bar{X}])^2) \ \ \ \ \ \ \ \ (3)$
            • $= \frac{1}{n}(n\sigma^2+n\mu^2-\sigma^2-n\mu^2) \ \ \ \ \ \ \ (4)$
            • $= \frac{n-1}{n}\sigma^2$
            • 즉, 모집단의 분산 추정값을 표본의 분산으로 하면 해당 추정값의 기댓값은 실제 모집단의 분산과 달라짐.
            • 모집단의 분산 추정값을 $\frac{ns^2}{n-1}$으로 하면 기댓값이 원래 모집단의 분산과 같아짐.