Skip to main content

Question ZH

問題 3.11 具有高斯先驗的貝葉斯迴歸

在上一個習題集中,我們展示了透過最小二乘法進行線性迴歸的各種形式,實際上只是下列模型下最大似然 (ML) 估計的特例:

y=ΦTθ+ϵ(3.42)y = \Phi^T \theta + \epsilon \quad (3.42)

其中 θ=[θ1,,θD]T\theta = [\theta_1, \dots, \theta_D]^T 是參數向量,y=[y1,,yn]Ty = [y_1, \dots, y_n]^T 是輸出向量,{x1,,xn}\{x_1, \dots, x_n\} 是對應的輸入集合,ϕ(xi)\phi(x_i) 是特徵轉換,且

Φ=[ϕ(x1),,ϕ(xn)](3.43)\Phi = [\phi(x_1), \dots, \phi(x_n)] \quad (3.43)

ϵ=[ϵ1,,ϵn]T\epsilon = [\epsilon_1, \dots, \epsilon_n]^T 是一個常態隨機過程 ϵN(0,Σ)\epsilon \sim \mathcal{N}(0, \Sigma),具有某個共變異數矩陣 Σ\Sigma。 考慮這個模型的貝葉斯擴展是很自然的。為此,我們只需擴展模型,考慮一個高斯先驗:

p(θ)=N(θ0,Γ),p(\theta) = \mathcal{N}(\theta|0, \Gamma),

其中 Γ\Gamma 是共變異數矩陣。我們首先推導一個一般結果(針對一般的共變異數矩陣 Σ\SigmaΓ\Gamma),然後展示它如何與其他方法相關聯。

(a) 給定訓練集 D={(x1,y1),,(xn,yn)}\mathcal{D} = \{(x_1, y_1), \dots, (x_n, y_n)\},證明後驗分佈為:

p(θD)=N(θμ^θ,Σ^θ),(3.44)p(\theta|\mathcal{D}) = \mathcal{N}(\theta|\hat{\mu}_\theta, \hat{\Sigma}_\theta), \quad (3.44) μ^θ=(Γ1+ΦΣ1ΦT)1ΦΣ1y,(3.45)\hat{\mu}_\theta = (\Gamma^{-1} + \Phi \Sigma^{-1} \Phi^T)^{-1} \Phi \Sigma^{-1} y, \quad (3.45) Σ^θ=(Γ1+ΦΣ1ΦT)1,(3.46)\hat{\Sigma}_\theta = (\Gamma^{-1} + \Phi \Sigma^{-1} \Phi^T)^{-1}, \quad (3.46)

其中 μ^θ\hat{\mu}_\theta 是後驗平均值,Σ^θ\hat{\Sigma}_\theta 是後驗共變異數。不要假設共變異數矩陣 Σ\SigmaΓ\Gamma 的任何特定形式。提示:配方 (Completing the square) (問題 1.10)。