Skip to main content

Answer ZH

必備知識

  1. 機率密度函數 (Probability Density Function, PDF)
    • 高斯分佈 (Gaussian distribution):p(x)=12πσ2exp((xμ)22σ2)p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)
  2. 對數概似 (Log-Likelihood)
    • 對數性質:ln(ab)=lna+lnb\ln(ab) = \ln a + \ln bln(ex)=x\ln(e^x) = x
  3. 最佳化 (Optimization)
    • 最大化一個函數等同於最大化其對數(因為對數是單調遞增函數)。

逐步解答

1. 概似函數 (The Likelihood Function)

我們觀察到的每一個 yi=ϕ(xi)Tθ+ϵiy_i = \phi(x_i)^T \theta + \epsilon_i,其中 ϵiN(0,σ2)\epsilon_i \sim \mathcal{N}(0, \sigma^2)。 這意味著給定 xix_iθ\thetayiy_i 服從平均值 μi=ϕ(xi)Tθ\mu_i = \phi(x_i)^T \theta 且變異數 σ2\sigma^2 的高斯分佈:

p(yixi,θ)=12πσ2exp((yiϕ(xi)Tθ)22σ2)p(y_i | x_i, \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - \phi(x_i)^T \theta)^2}{2\sigma^2} \right)

由於樣本是獨立同分佈 (i.i.d) 的,整個資料集的概似性是個別機率的乘積:

L(θ)=p(Dθ)=i=1np(yixi,θ)L(\theta) = p(\mathcal{D} | \theta) = \prod_{i=1}^n p(y_i | x_i, \theta) L(θ)=i=1n12πσ2exp((yiϕ(xi)Tθ)22σ2)L(\theta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - \phi(x_i)^T \theta)^2}{2\sigma^2} \right)

2. 對數概似函數 (The Log-Likelihood Function)

最大化對數概似 (θ)=lnL(θ)\ell(\theta) = \ln L(\theta) 比較容易,因為它將乘積轉化為求和。

(θ)=ln(i=1n12πσ2exp((yiϕ(xi)Tθ)22σ2))=i=1n(ln12πσ2+lnexp((yiϕ(xi)Tθ)22σ2))=i=1n(12ln(2πσ2)(yiϕ(xi)Tθ)22σ2)\begin{aligned} \ell(\theta) &= \ln \left( \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(y_i - \phi(x_i)^T \theta)^2}{2\sigma^2} \right) \right) \\ &= \sum_{i=1}^n \left( \ln \frac{1}{\sqrt{2\pi\sigma^2}} + \ln \exp\left( -\frac{(y_i - \phi(x_i)^T \theta)^2}{2\sigma^2} \right) \right) \\ &= \sum_{i=1}^n \left( -\frac{1}{2} \ln(2\pi\sigma^2) - \frac{(y_i - \phi(x_i)^T \theta)^2}{2\sigma^2} \right) \end{aligned}

簡化後:

(θ)=n2ln(2πσ2)12σ2i=1n(yiϕ(xi)Tθ)2\ell(\theta) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \phi(x_i)^T \theta)^2

3. 最大化 (Maximization)

為了找出 ML 估計值 θ^ML\hat{\theta}_{ML},我們對 θ\theta 最大化 (θ)\ell(\theta)。 注意第一項 n2ln(2πσ2)-\frac{n}{2} \ln(2\pi\sigma^2)θ\theta 而言是常數,可以忽略。 最大化剩餘項等同於最大化:

12σ2i=1n(yiϕ(xi)Tθ)2-\frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - \phi(x_i)^T \theta)^2

由於 12σ2>0\frac{1}{2\sigma^2} > 0,最大化這個負數等同於最小化求和符號內的正數:

θ^ML=argminθi=1n(yiϕ(xi)Tθ)2\hat{\theta}_{ML} = \arg\min_\theta \sum_{i=1}^n (y_i - \phi(x_i)^T \theta)^2

這個目標函數正是 (a) 部分中的平方誤差和 (Sum-Squared-Error)。 因此,在高斯雜訊的假設下,最小化平方誤差和等同於最大化概似性。其解是相同的:

θ^ML=(ΦΦT)1Φy\hat{\theta}_{ML} = (\Phi \Phi^T)^{-1} \Phi y