확률변수 $X$ 의 통계량(모멘트, 특성값)을 구할 때
- 재료
- $X$ 는 확률 변수, random variable
- $p$ 는 확률 분포, probability distribution
- $X_i$ 는 확률 변수의 값, possible value of the random variable, outcome, state
- $p_i$ 는 확률 분포에서 해당 값의 확률, 개별 확률, 확률 밀도 (연속형), 확률 질량 (이산형), individual probability, probability density (연속형), probability mass (이산형, discrete)
- 모멘트
- $E[X]$ 는 기댓값, 평균, expected value, mean
- $\sum p_iX_i$
- $Var(X)$ 는 분산, variance
- $Var(X) = E[(X-E(X))^2]$
- $\sigma$ 는 표준편차, standard deviation
- Central moments, 중심 모멘트: 확률분포의 중심(기댓값) 주변에서 분포의 형태를 나타내는 값들.
- 공식:
- $μ_k=E[(X−E[X])^k]$ (k번째 중심 모멘트)
- 설명:
- 1차 중심 모멘트: 항상 0
- 2차 중심 모멘트: 분산(Variance) $σ^2=E[(X−μ)2]$
- 3차 중심 모멘트: 왜도(Skewness)와 관련, 대칭성을 측정
- 4차 중심 모멘트: 첨도(Kurtosis)와 관련, 분포의 꼬리 두께를 측정
- 공식:
- skewness, 비대칭도, 외도:
- $Skewness=\frac{E[(X−μ)^3]}{σ^3}$
- 양수: 오른쪽 꼬리가 더 길다.
- 음수: 왼쪽 꼬리가 더 길다.
- kurtosis, 첨도:
- $Kurtosis=\frac{E[(X−μ)^4]}{σ^4}$
- 3: 높은 첨도, leptokurtic, 중심이 뾰족하고 꼬리 두꺼움 - 극단값 발생 확률 높음
- <3: 낮은 첨도, platykurtic, 중심이 평평하고 꼬리가 얇음
- 정규 분포의 첨도 = 3
- $E[X]$ 는 기댓값, 평균, expected value, mean
모집단에 대해 Estimator을 구할 때
- 모집단의 randomo variable $X$에 대해 possible outcomes, probability of the possible outcomes가 알려지지 않았을 때 sample data를 이용해 estimate함.
- 재료
- $\theta$는 모수, 모집단의 실제 값, parameter
- $\hat{\theta}$는 추정량, 모수의 추정값, estimator
- $X_i$는 $i^{th}$ observation of the sample
- $p_i$는 표본 데이터에서 특정 observation이 나올 확률
- 값
- $\mu$는 모집단의 평균 (parameter)
- $\hat{\mu}$은 모집단 평균의 추정값 (estimator)
- $\bar{X}$ 는 표본에서 구한 평균
- $\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$
- 표본 추출이 모집단에서 랜덤하게 이루어졌다고 가정했을 때, 개별 표본 $X_i$ 는 모집단의 확률 분포를 따르는 확률 변수이므로, $X_i$의 기댓값 $E[X_i]$는 모집단의 기댓값 $E[X]=\mu$ 와 동일함.
- (1)
$\hat{\mu} = \bar{X}$ , 표본의 평균으로 모집단의 평균을 추정함
- 표본평균의 기댓값
- (2) $E(\bar{X}) \\ = E[\frac{1} {n}\sum_{i=1}^{n}X_i] \\ =\frac{1}{n}\sum_{i=1}^{n}E[X_i] \\ =\frac{1}{n}\sum_{i=1}^{n}\mu \\ =\frac{n\mu}{n} = \mu$
- 불편 추정량, unbiased estimator : estimator의 기댓값이 parameter과 같을 때
- $E[\hat{\mu}] \\ =E(\bar{X}) \ \ \ \ _{(1)}$
- $=\mu \ \ \ \ _{(2)}$ 이므로 $\hat{\theta}$는 불편 추정량
- 표본 분산 $s^2$은 모집단의 분산 $\sigma^2$에 대한 편향된 추정량임, baised estimator
- $\sigma^2$은 모집단의 분산
- $\sigma^2 = E[(X-E[X])^2]$
- $\hat{\sigma}^2$은 모집단 분산의 추정값
- biased estimator
- $\hat{\sigma}^2 = s^2 = \frac{1}{n}\sum_{i}(X_i-\bar{X})^2$ 이라고 추정하는 것.
- unbiased estimator
- $\hat{\sigma}^2 = \frac{1}{n-1}\sum_{i}(X_i-\bar{X})^2$
- 설명 1:
- 추정을 할 때에는 실제 모집단의 기댓값 대신 표본의 평균을 쓰게 됨.
- 표본 평균은 해당 표본 데이터 값들의 가운데에 위치하기 때문에 실제 모집단의 기댓값을 쓸 때보다 추정값이 작을 수밖에 없음. 그래서 n 대신 n-1로 나눔.
- 설명 2:
- 기댓값을 구할 때 값의 개수인 n으로 나누는 이유는 자유도가 n이기 때문임. 자유롭게 변할 수 있는 값 n개에 대한 기댓값이기 때문.
- 분산의 추정값을 구할 때에는 $X_i$와 $\bar{X}$를 쓰기 때문에 전체 데이터 n개 중 하나는 고정될 수밖에 없음. 평균이 정해져있는 상태이기 때문에 n-1개의 데이터는 자유도를 갖지만 나머지 한 개의 데이터는 평균에 맞춰서 정해짐.
- 그래서 n 대신 n-1로 나눔.
- 분산의 추정값이 아닌 데이터의 분산 자체를 구할 때에는 평균이 n개의 데이터 모두에 따라 달라지는 것이기 때문에 자유도가 그대로 n임.
- 설명 3:
- 분산이 $\sigma^2$인 확률분포에서 추출된 n개의 샘플 $X_i$에 대한 표본분산 $s^2$의 기댓값 구하기
- 표본의 데이터 $X_i$와 $\bar{X}$는 정해져 있는 상태
- 모집단의 분산이 $\sigma^2$이라고 하고 랜덤추출을 했다고 가정했을 때 $X_i$는 분산이 $\sigma^2$인 확률분포를 따름.
- 기댓값과 분산과의 다음 관계 (3) 와 표본평균의 분산 (4) 을 사용해서 식을 풀 것
- (3) $Var(X) = E[X^2] = (E[X])^2$
- (4) $Var(\bar{X}) = Var(\frac{1}{n}\sum_{i=1}^{n}X_i) = \frac{1}{n^2}Var(\sum_{i=1}^{n}X_i) = \frac{n}{n^2}Var(X_i) = \frac{\sigma^2}{n}$
- $E[s^2]$
- $= E[\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^2]$
- $=\frac{1}{n} E\left[\sum_{i=1}^{n} X_i^2 - 2\bar{X} \sum_{i=1}^{n} X_i + \sum_{i=1}^{n} \bar{X}^2\right]$
- $= \frac{1}{n} E\left[\sum_{i=1}^{n} X_i^2 - 2\bar{X} n\bar{X} + n\bar{X}^2\right] \\ = \frac{1}{n}(\sum_{i=1}^{n}E(X_i^2)-nE[\bar{X}^2])$
- $= \frac{1}{n}(\sum_{i=1}^{n}(Var(X_i)+(E[X_i])^2) -n(Var(\bar{X}))-n(E[\bar{X}])^2) \ \ \ \ \ \ \ \ (3)$
- $= \frac{1}{n}(n\sigma^2+n\mu^2-\sigma^2-n\mu^2) \ \ \ \ \ \ \ (4)$
- $= \frac{n-1}{n}\sigma^2$
- 즉, 모집단의 분산 추정값을 표본의 분산으로 하면 해당 추정값의 기댓값은 실제 모집단의 분산과 달라짐.
- 모집단의 분산 추정값을 $\frac{ns^2}{n-1}$으로 하면 기댓값이 원래 모집단의 분산과 같아짐.
- 분산이 $\sigma^2$인 확률분포에서 추출된 n개의 샘플 $X_i$에 대한 표본분산 $s^2$의 기댓값 구하기
- 설명 1:
- $\hat{\sigma}^2 = \frac{1}{n-1}\sum_{i}(X_i-\bar{X})^2$
- biased estimator
'통계, 연구, 역학' 카테고리의 다른 글
Ordinary Least Sqaures 직관적으로 이해하기 - 4 (0) | 2025.02.03 |
---|---|
Ordinary Least Squares 직관적으로 이해하기 - 3 (0) | 2025.02.03 |
Ordinary Least Squares 직관적으로 이해하기 - 2 (0) | 2025.02.03 |
Ordinary Least Squares 직관적으로 이해하기 1 (0) | 2025.02.03 |