본문 바로가기

통계, 연구, 역학

Ordinary Least Squares 직관적으로 이해하기 1

 

 

 

단순 회귀모델의 기하학적 해석

1. 모델 설정

  • 먼저 독립변수가 없는 단순 회귀모델을 보자. 식은 다음과 같이 표현됨:여기서 $u_i$는 오차다.
  • $y_i=β_0+u_i$
  • 이를 행렬 형태로 표현하면:여기서 $X$는 상수항(1로 채워진 벡터)만 포함한다.
  • $y=Xβ_0+u$

2. 예시 (2개 관측치의 경우)

  • 관측치가 2개일 때, 예를 들어: $y$가 $ \begin{bmatrix} 2 \\ -1 \end{bmatrix} $ , $X$가 $ \begin{bmatrix} 1 \\ 1 \end{bmatrix} $이라 하자. 
    • $y$ 벡터는 2차원 공간에서 점 $(2, -1)$ 로 표현됨.
    • $(2, -1)$
    • $X$의 컬럼 스페이스는 단일 상수항 벡터 $(1,1)$ 이 생성하는 1차원 선(line)이다.
      • 이 말은, 벡터 $(1,1)$ 에 상수 $β_0$를 곱한 것이 $y$ 예측치이므로 벡터 $(1,1)$을 양쪽으로 쭉 늘린 선 위에 $y$ 예측치가 있게 된다는 말
    • $(1,1)$
  • $y_1 = 2, \quad y_2 = -1$

3. 기하학적 해석

  • 회귀의 목적은 $y$에 가장 가까운 $X$의 컬럼 스페이스 상의 점(예측값, $\hat\mu$ )을 찾는 것.
  • 이는 $y$ 벡터를 $(1,1)$ 방향의 선에 투영(projection) 하는 과정과 동일하며, 유클리드 거리(오차 제곱합)를 최소화한다.

4. 최소제곱 해

  • $β0$ 를 결정하기 위해 최소제곱법을 적용하면, 미분 후 다음을 얻는다:
  • 유클리드 거리를 최소화하는 식 $S = (y_1- \beta_0 )^2 + (y_2- \beta_0 )^2$
  • $\beta_0 = \frac{y_1 + y_2}{2}$
  • 예제에서 대입하면:
  • $\beta_0 = \frac{2 + (-1)}{2} = 0.5$

5. 잔차의 특성

  • 잔차 벡터 $(y - \hat{\mu})$는 $X$의 컬럼 스페이스에 대해 직교(orthogonal) 함.
  • 이는 만약 잔차가 직교하지 않는다면, $X$의 컬럼 스페이스 상의 다른 점을 선택하여 $y$에 더 가까이 갈 수 있었음을 의미한다.

출처: https://www.youtube.com/watch?v=444ZkgiHI3Q