潛在函數 f∗ 的預測分佈:
題目要求我們在給定資料 D 的情況下,找出無雜訊預測值 f∗=f(x∗,θ)=ϕ(x∗)Tθ 的分佈。
由 (a) 部分可知,θ 的後驗分佈為高斯分佈:
p(θ∣D)=N(θ∣μ^θ,Σ^θ)
由於 f∗ 是高斯隨機向量 θ 的線性組合,因此 f∗ 也服從高斯分佈。這是根據以下規則:如果 x∼N(μ,Σ),則 Ax∼N(Aμ,AΣAT)。
在此處,「矩陣 A」是列向量 ϕ(x∗)T,而隨機變數是 θ。
- 平均數 (Mean):
μ^∗=E[f∗∣x∗,D]=E[ϕ(x∗)Tθ∣x∗,D]=ϕ(x∗)TE[θ∣D]=ϕ(x∗)Tμ^θ
- 變異數 (Variance):
σ^∗2=Var(f∗∣x∗,D)=Var(ϕ(x∗)Tθ∣x∗,D)=ϕ(x∗)TVar(θ∣D)ϕ(x∗)=ϕ(x∗)TΣ^θϕ(x∗)
因此,潛在函數的預測分佈為:
p(f∗∣x∗,D)=N(f∗∣ϕ(x∗)Tμ^θ,ϕ(x∗)TΣ^θϕ(x∗))=N(f∗∣μ^∗,σ^∗2)
輸出 y∗ 的預測分佈:
觀察到的目標值 y∗ 包含了觀察雜訊:y∗=f∗+ϵ∗,其中 ϵ∗∼N(0,σ2)。
題目要求我們計算積分:
p(y∗∣x∗,D)=∫p(y∗∣x∗,θ)p(θ∣D)dθ
利用提示,因為 y∗ 僅透過確定性的映射 f∗=ϕ(x∗)Tθ 依賴於 θ,我們可以對 f∗ 進行邊際化 (marginalize),而不是對高維度的 θ 進行邊際化:
p(y∗∣x∗,D)=∫p(y∗∣f∗)p(f∗∣D)df∗
我們已知:
- p(y∗∣f∗)=N(y∗∣f∗,σ2) (由 y∗=f∗+ϵ∗ 得來)
- p(f∗∣D)=N(f∗∣μ^∗,σ^∗2)
這個積分表示將兩個獨立的高斯變數相加:f∗∼N(μ^∗,σ^∗2) 和 ϵ∗∼N(0,σ2)。
兩個獨立高斯變數的總和 y∗=f∗+ϵ∗ 同樣會是高斯分佈。
- y∗ 的平均數:E[y∗]=E[f∗]+E[ϵ∗]=μ^∗+0=μ^∗
- y∗ 的變異數:Var(y∗)=Var(f∗)+Var(ϵ∗)=σ^∗2+σ2
因此,y∗ 的預測分佈為:
p(y∗∣x∗,D)=N(y∗∣μ^∗,σ2+σ^∗2)
得證。