통계, 연구, 역학
Ordinary Least Squares 직관적으로 이해하기 - 2
Dr. yul
2025. 2. 3. 22:23
OLS의 기하학적 해석 - 컬럼 스페이스 (Col(X))의 개념
- 회귀 모델의 행렬 표현
- 종속 변수 Y를 독립 변수 행렬 X와 회귀 계수 벡터 β , 그리고 오차 벡터 U로 표현할 수 있음.
- 행렬 형태로 표현하면 다음과 같음:$Y = X\beta + U$여기서,
- $Y$ : 종속 변수 벡터 (n×1)
- $X$ : 독립 변수 행렬 (n×k), (보통 첫 번째 열은 상수 1로 채워짐: (y = ax + b 에서 b에 곱해지는 값 1 이라고 생각하면 쉽다)
- $\beta$ : 회귀 계수 벡터 (k×1)
- $U$ : 오차 벡터 (n×1)
- 독립 변수 행렬 XX의 컬럼 스페이스 해석
- X의 각 열은 하나의 벡터로 볼 수 있음.
- 즉, 독립 변수 행렬을 벡터들의 집합으로 생각하면, 이 벡터들이 이루는 공간(컬럼 스페이스)이 생성됨.
- 그림에서 보듯이, X는 다음과 같이 벡터들로 구성됨:
- X = $ \begin{bmatrix} V_0 & V_1 & V_2 \end{bmatrix}$
- 여기서,
- $V_0$ : 모든 값이 1인 상수항 벡터
- $V_1$ : 첫 번째 독립 변수의 값들이 포함된 벡터
- $V_2$ : 두 번째 독립 변수의 값들이 포함된 벡터
- OLS의 기하학적 의미
- 회귀 계수 β는 각 독립 변수 벡터의 기여도를 결정함.
- Y를 X의 컬럼 스페이스 내에서 가장 근접하게 만드는 선형 조합(linear combination) 으로 찾음.$Y = \beta_0 V_0 + \beta_1 V_1 + \beta_2 V_2 + U$
- 즉, $\beta_0, \beta_1, \beta_2$는 각각 $V_0, V_1, V_2$의 크기를 조정하여 Y에 최대한 근접하도록 함.
- 최적의 조합을 찾기 위해 직교 투영(projection)을 수행함.
- 잔차 벡터 UU의 직교성
- 회귀 모델에서 오차 벡터 U는 컬럼 스페이스 X에 직교해야 함.
- 즉, 회귀 직선(또는 평면) 위의 점 Xβ^ 에서 Y까지의 거리(잔차)는 직교하는 형태로 나타남.
- \( Y - \hat{Y} \) ⊥ Col(X)
- 이는 OLS가 오차 제곱합을 최소화하는 방식으로 회귀 계수를 추정하는 원리를 설명함.
결론:
- OLS는 $Y$를 $X$의 컬럼 스페이스에 투영하는 과정으로 볼 수 있음.
- 컬럼 스페이스는 독립 변수 벡터들의 선형 결합으로 생성되는 공간이며,
- 잔차 벡터는 이 컬럼 스페이스와 항상 직교함.
- 이러한 개념을 통해 OLS를 기하학적으로 해석할 수 있음.
출처: Geometric Least Squares Column Space Intuition