Skip to main content

Question ZH

問題 2.8 最小平方法回歸與最大概似估計 (Least-squares regression and MLE)

在這個問題中,我們將探討線性回歸 (Linear Regression) 的議題,以及最大概似估計 (Maximum Likelihood Estimation) 與最小平方解 (Least Squares Solutions) 之間的關聯。考慮 xRx \in \mathbb{R} 的多項式函數,

f(x,θ)=k=0Kxkθk=ϕ(x)Tθ(2.7)f(x, \theta) = \sum_{k=0}^K x^k \theta_k = \phi(x)^T \theta \quad \quad (2.7)

其中我們定義特徵轉換 (Feature Transformation) ϕ(x)\phi(x) 以及參數向量 θ\theta(兩者的維度皆為 D=K+1D = K + 1)為:

ϕ(x)=[1,x,x2,,xK]TRD,θ=[θ0,,θK]TRD.(2.8)\phi(x) = \left[ 1, x, x^2, \cdots, x^K \right]^T \in \mathbb{R}^D, \quad \theta = \left[ \theta_0, \cdots, \theta_K \right]^T \in \mathbb{R}^D. \quad \quad (2.8)

給定一個輸入 xx,我們並非觀察到實際的函數值 f(x,θ)f(x, \theta),而是觀察到包含雜訊的版本 yy

y=f(x,θ)+ϵ(2.9)y = f(x, \theta) + \epsilon \quad \quad (2.9)

其中 ϵ\epsilon 是一個具有零平均值 (Zero Mean) 和變異數 (Variance) σ2\sigma^2 的高斯隨機變數 (Gaussian Random Variable)。我們的目標是在給定獨立同分布 (i.i.d.) 的樣本 D={(x1,y1),,(xn,yn)}\mathcal{D} = \{(x_1, y_1), \dots, (x_n, y_n)\} 的情況下,獲得該函數的最佳估計。

(a) 將此問題公式化為最小平方法 (Least Squares) 問題,亦即定義

y=[y1yn],Φ=[ϕ(x1),,ϕ(xn)]=[11x11xn1x1KxnK](2.10)y = \begin{bmatrix} y_1 \\ \vdots \\ y_n \end{bmatrix}, \quad \Phi = \left[ \phi(x_1), \cdots, \phi(x_n) \right] = \begin{bmatrix} 1 & \cdots & 1 \\ x_1^1 & \dots & x_n^1 \\ \vdots & \ddots & \vdots \\ x_1^K & \cdots & x_n^K \end{bmatrix} \quad \quad (2.10)

並找出使誤差平方和 (Sum-Squared-Error) 最小的 θ\theta 值:

i=1n(yiϕ(xi)Tθ)2=yΦTθ2.(2.11)\sum_{i=1}^n (y_i - \phi(x_i)^T \theta)^2 = \| y - \Phi^T \theta \|^2. \quad \quad (2.11)