단순 회귀모델의 기하학적 해석
1. 모델 설정
- 먼저 독립변수가 없는 단순 회귀모델을 보자. 식은 다음과 같이 표현됨:여기서 $u_i$는 오차다.
- $y_i=β_0+u_i$
- 이를 행렬 형태로 표현하면:여기서 $X$는 상수항(1로 채워진 벡터)만 포함한다.
- $y=Xβ_0+u$
2. 예시 (2개 관측치의 경우)
- 관측치가 2개일 때, 예를 들어: $y$가 $ \begin{bmatrix} 2 \\ -1 \end{bmatrix} $ , $X$가 $ \begin{bmatrix} 1 \\ 1 \end{bmatrix} $이라 하자.
- $y$ 벡터는 2차원 공간에서 점 $(2, -1)$ 로 표현됨.
- $(2, -1)$
- $X$의 컬럼 스페이스는 단일 상수항 벡터 $(1,1)$ 이 생성하는 1차원 선(line)이다.
- 이 말은, 벡터 $(1,1)$ 에 상수 $β_0$를 곱한 것이 $y$ 예측치이므로 벡터 $(1,1)$을 양쪽으로 쭉 늘린 선 위에 $y$ 예측치가 있게 된다는 말
- $(1,1)$
- $y_1 = 2, \quad y_2 = -1$
3. 기하학적 해석
- 회귀의 목적은 $y$에 가장 가까운 $X$의 컬럼 스페이스 상의 점(예측값, $\hat\mu$ )을 찾는 것.
- 이는 $y$ 벡터를 $(1,1)$ 방향의 선에 투영(projection) 하는 과정과 동일하며, 유클리드 거리(오차 제곱합)를 최소화한다.
4. 최소제곱 해
- $β0$ 를 결정하기 위해 최소제곱법을 적용하면, 미분 후 다음을 얻는다:
- 유클리드 거리를 최소화하는 식 $S = (y_1- \beta_0 )^2 + (y_2- \beta_0 )^2$
- $\beta_0 = \frac{y_1 + y_2}{2}$
- 예제에서 대입하면:
- $\beta_0 = \frac{2 + (-1)}{2} = 0.5$
5. 잔차의 특성
- 잔차 벡터 $(y - \hat{\mu})$는 $X$의 컬럼 스페이스에 대해 직교(orthogonal) 함.
- 이는 만약 잔차가 직교하지 않는다면, $X$의 컬럼 스페이스 상의 다른 점을 선택하여 $y$에 더 가까이 갈 수 있었음을 의미한다.
출처: https://www.youtube.com/watch?v=444ZkgiHI3Q
'통계, 연구, 역학' 카테고리의 다른 글
모집단, 표본, 추정값 - 헷갈리는 용어 정리하기 ~ unbiased estimator란? (0) | 2025.02.04 |
---|---|
Ordinary Least Sqaures 직관적으로 이해하기 - 4 (0) | 2025.02.03 |
Ordinary Least Squares 직관적으로 이해하기 - 3 (0) | 2025.02.03 |
Ordinary Least Squares 직관적으로 이해하기 - 2 (0) | 2025.02.03 |