問題 3.11 高斯先驗的貝葉斯迴歸 (Bayesian regression with Gaussian prior)
在之前的作業中,我們證明了使用最小平方法 (method of least squares) 的各種線性迴歸 (linear regression) 形式實際上都只是以下模型下最大概似估計 (ML estimation) 的特例:
y=ΦTθ+ϵ(3.42)
其中 θ=[θ1,…,θD]T 是參數向量 (parameter vector),y=[y1,…,yn]T 是輸出向量 (vector of outputs),{x1,⋯,xn} 是對應的輸入集合,ϕ(xi) 是一個特徵轉換 (feature transformation),且
Φ=[ϕ(x1),⋯,ϕ(xn)](3.43)
以及 ϵ=[ϵ1,…,ϵn]T 是一個常態隨機過程 ϵ∼N(0,Σ),具有某個共變異數矩陣 (covariance matrix) Σ。
很自然地,我們可以考慮這個模型的貝葉斯擴展 (Bayesian extension)。為此,我們只需藉由考慮一個高斯先驗 (Gaussian prior) 來擴展該模型:
p(θ)=N(θ∣0,Γ),
其中 Γ 是共變異數矩陣。我們將首先推導出一個通用結果 (適用於一般的共變異數矩陣 Σ 和 Γ),然後展示它與其他方法的關聯。
(a) 給定一個訓練集 D={(x1,y1),…,(xn,yn)},證明後驗分佈 (posterior distribution) 為
p(θ∣D)μ^θΣ^θ=N(θ∣μ^θ,Σ^θ),=(Γ−1+ΦΣ−1ΦT)−1ΦΣ−1y,=(Γ−1+ΦΣ−1ΦT)−1,(3.44)(3.45)(3.46)
其中 μ^θ 是後驗平均數 (posterior mean),Σ^θ 是後驗共變異數 (posterior covariance)。請不要假設共變異數矩陣 Σ 和 Γ 有任何特定的形式。提示:配方法 (complete the square) (請參見問題 1.10)。