Skip to main content

Answer ZH

預備知識

  1. 矩陣求逆性質: (kA)1=1kA1(kA)^{-1} = \frac{1}{k} A^{-1}
  2. 向量微積分: θ(yΦTθ2)=2Φ(yΦTθ)\nabla_\theta (\|y - \Phi^T \theta\|^2) = -2 \Phi (y - \Phi^T \theta). θ(θTθ)=2θ\nabla_\theta (\theta^T \theta) = 2 \theta.

逐步解答

第 1 部分:在 I.I.D. 假設下推導 MAP

  1. 代入 Γ\GammaΣ\Sigma: 從 (a)/(b) 的一般 MAP 公式開始:

    θ^MAP=(Γ1+ΦΣ1ΦT)1ΦΣ1y\hat{\theta}_{MAP} = (\Gamma^{-1} + \Phi \Sigma^{-1} \Phi^T)^{-1} \Phi \Sigma^{-1} y

    代入 Γ=αI\Gamma = \alpha IΣ=σ2I\Sigma = \sigma^2 I

    θ^MAP=((αI)1+Φ(σ2I)1ΦT)1Φ(σ2I)1y\hat{\theta}_{MAP} = ((\alpha I)^{-1} + \Phi (\sigma^2 I)^{-1} \Phi^T)^{-1} \Phi (\sigma^2 I)^{-1} y

    將純量提出逆矩陣之外 (α1=1/α\alpha^{-1} = 1/\alpha):

    θ^MAP=(1αI+1σ2ΦΦT)11σ2Φy\hat{\theta}_{MAP} = (\frac{1}{\alpha} I + \frac{1}{\sigma^2} \Phi \Phi^T)^{-1} \frac{1}{\sigma^2} \Phi y
  2. 簡化: 從逆矩陣項中提取 1σ2\frac{1}{\sigma^2}。 令 A=1αI+1σ2ΦΦTA = \frac{1}{\alpha} I + \frac{1}{\sigma^2} \Phi \Phi^T。我們要求 A1A^{-1}A=1σ2(σ2αI+ΦΦT)A = \frac{1}{\sigma^2} (\frac{\sigma^2}{\alpha} I + \Phi \Phi^T)A1=σ2(σ2αI+ΦΦT)1A^{-1} = \sigma^2 (\frac{\sigma^2}{\alpha} I + \Phi \Phi^T)^{-1}

    代回原式:

    θ^MAP=[σ2(σ2αI+ΦΦT)1]1σ2Φy\hat{\theta}_{MAP} = \left[ \sigma^2 (\frac{\sigma^2}{\alpha} I + \Phi \Phi^T)^{-1} \right] \frac{1}{\sigma^2} \Phi y

    σ2\sigma^21σ2\frac{1}{\sigma^2} 互相抵消:

    θ^MAP=(ΦΦT+σ2αI)1Φy\hat{\theta}_{MAP} = (\Phi \Phi^T + \frac{\sigma^2}{\alpha} I)^{-1} \Phi y
  3. 識別 λ\lambda: 設定 λ=σ2α\lambda = \frac{\sigma^2}{\alpha},我們得到:

    θ^MAP=(ΦΦT+λI)1Φy\hat{\theta}_{MAP} = (\Phi \Phi^T + \lambda I)^{-1} \Phi y

    由於變異數 σ2\sigma^2α\alpha 均為正數,故 λ0\lambda \ge 0

第 2 部分:求解正則化最小二乘法

  1. 定義目標函數:

    J(θ)=yΦTθ2+λθ2J(\theta) = \|y - \Phi^T \theta\|^2 + \lambda \|\theta\|^2 J(θ)=(yΦTθ)T(yΦTθ)+λθTθJ(\theta) = (y - \Phi^T \theta)^T (y - \Phi^T \theta) + \lambda \theta^T \theta
  2. 計算梯度:

    θJ(θ)=θ(yTy2yTΦTθ+θTΦΦTθ+λθTθ)\nabla_\theta J(\theta) = \nabla_\theta (y^T y - 2y^T \Phi^T \theta + \theta^T \Phi \Phi^T \theta + \lambda \theta^T \theta) =2Φy+2ΦΦTθ+2λθ= -2 \Phi y + 2 \Phi \Phi^T \theta + 2 \lambda \theta
  3. 將梯度設為零:

    2Φy+2(ΦΦT+λI)θ=0-2 \Phi y + 2 (\Phi \Phi^T + \lambda I) \theta = 0 (ΦΦT+λI)θ=Φy(\Phi \Phi^T + \lambda I) \theta = \Phi y
  4. 求解 θ\theta:

    θ^=(ΦΦT+λI)1Φy\hat{\theta} = (\Phi \Phi^T + \lambda I)^{-1} \Phi y

    這與上面推導出的具體 MAP 估計值相符。