-
將 i.i.d. 假設代入 MAP 估計:
由 (b) 部分可知,MAP 估計為:
θ^MAP=(Γ−1+ΦΣ−1ΦT)−1ΦΣ−1y
已知 Γ=αI 且 Σ=σ2I。將這些代入 MAP 方程式中。
其反矩陣為 Γ−1=α1I 和 Σ−1=σ21I。
θ^MAP=(α1I+Φ(σ21I)ΦT)−1Φ(σ21I)y
-
化簡代數表達式:
將純量 σ21 從反矩陣項中提出:
θ^MAP=[σ21(ασ2I+ΦΦT)]−1Φ(σ21I)y
應用性質 (cA)−1=c1A−1,其中 c 為純量:
θ^MAP=σ2(ασ2I+ΦΦT)−1σ21Φy
σ2 項相互抵消:
θ^MAP=(ΦΦT+ασ2I)−1Φy
透過定義 λ=ασ2,我們得到所需的形式:
θ^MAP=(ΦΦT+λI)−1Φy
由於 α (先驗變異數) 和 σ2 (雜訊變異數) 必須是非負的,因此 λ≥0。這證明了第一部分。
-
求解正則化最小平方法問題:
我們想證明方程式 (3.49) 中的目標函數會導出相同的解。
令 J(θ) 為要最小化的目標函數:
J(θ)=∥y−ΦTθ∥2+λ∥θ∥2
將範數展開為向量內積 (∣∣x∣∣2=xTx):
J(θ)=(y−ΦTθ)T(y−ΦTθ)+λθTθ
J(θ)=yTy−yTΦTθ−θTΦy+θTΦΦTθ+λθTθ
注意 yTΦTθ=(θTΦy)T。因為結果是一個純量,所以它等於它的轉置。
J(θ)=yTy−2θTΦy+θT(ΦΦT+λI)θ
-
求導數並設為零:
為了最小化 J(θ),我們對向量 θ 計算梯度 (gradient) 並將其設為零:
∇θJ(θ)=−2Φy+2(ΦΦT+λI)θ=0
(ΦΦT+λI)θ=Φy
求解 θ:
θ^=(ΦΦT+λI)−1Φy
這與方程式 (3.48) 完全相同,證明了具有各向同性 (isotropic) 高斯先驗的貝葉斯 MAP 估計在數學上等價於求解頻率學派的 L2 正則化最小平方法問題 (嶺迴歸,Ridge regression)。