Skip to main content

Answer ZH

預備知識

  1. 高斯分佈的線性變換: 如果 xN(μ,Σ)x \sim \mathcal{N}(\mu, \Sigma),則 y=Ax+by = Ax + b 服從 N(Aμ+b,AΣAT)\mathcal{N}(A\mu + b, A \Sigma A^T)
  2. 獨立高斯變數之和: 如果 XN(μX,σX2)X \sim \mathcal{N}(\mu_X, \sigma_X^2)YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2) 是獨立的,則 Z=X+YN(μX+μY,σX2+σY2)Z = X + Y \sim \mathcal{N}(\mu_X + \mu_Y, \sigma_X^2 + \sigma_Y^2)
  3. 邊緣化 (Marginalization): p(yf)p(f)df\int p(y|f) p(f) df.

逐步解答

第 1 部分:ff_* 的分佈

  1. 定義 ff_*: 潛在函數值定義為參數的線性變換:

    f=ϕ(x)Tθf_* = \phi(x_*)^T \theta
  2. 應用線性變換性質: 我們知道 θ\theta 的後驗為 p(θD)=N(θμ^θ,Σ^θ)p(\theta|\mathcal{D}) = \mathcal{N}(\theta | \hat{\mu}_\theta, \hat{\Sigma}_\theta)。 使用線性變換性質(其中 A=ϕ(x)TA = \phi(x_*)^T 是一個列向量):

    • 平均值: E[f]=ϕ(x)TE[θ]=ϕ(x)Tμ^θ\mathbb{E}[f_*] = \phi(x_*)^T \mathbb{E}[\theta] = \phi(x_*)^T \hat{\mu}_\theta
    • 變異數: Var[f]=ϕ(x)TCov[θ]ϕ(x)=ϕ(x)TΣ^θϕ(x)\operatorname{Var}[f_*] = \phi(x_*)^T \operatorname{Cov}[\theta] \phi(x_*) = \phi(x_*)^T \hat{\Sigma}_\theta \phi(x_*)
  3. 結果:

    p(fx,D)=N(fμ^,σ^2)p(f_* | x_*, \mathcal{D}) = \mathcal{N}(f_* | \hat{\mu}_*, \hat{\sigma}_*^2)

    其中 μ^\hat{\mu}_*σ^2\hat{\sigma}_*^2 與方程式 (3.51) 和 (3.52) 相符。

第 2 部分:yy_* 的分佈

  1. 模型關係: 觀測到的輸出是函數值加上雜訊:

    y=f+ϵ,ϵN(0,σ2)y_* = f_* + \epsilon_*, \quad \epsilon_* \sim \mathcal{N}(0, \sigma^2)
  2. 獨立隨機變數之和: 我們有 ff_* 的分佈(來自第 1 部分)和 ϵ\epsilon_* 的分佈(雜訊假設)。 由於新的雜訊 ϵ\epsilon_* 獨立於過去的數據 D\mathcal{D}(因此也獨立於 ff_*),變數 yy_* 是兩個獨立高斯變數的總和。

  3. 計算動差 (Moments):

    • 平均值: E[y]=E[f]+E[ϵ]=μ^+0=μ^\mathbb{E}[y_*] = \mathbb{E}[f_*] + \mathbb{E}[\epsilon_*] = \hat{\mu}_* + 0 = \hat{\mu}_*
    • 變異數: Var[y]=Var[f]+Var[ϵ]=σ^2+σ2\operatorname{Var}[y_*] = \operatorname{Var}[f_*] + \operatorname{Var}[\epsilon_*] = \hat{\sigma}_*^2 + \sigma^2
  4. 結果:

    p(yx,D)=N(yμ^,σ^2+σ2)p(y_*|x_*, \mathcal{D}) = \mathcal{N}(y_* | \hat{\mu}_*, \hat{\sigma}_*^2 + \sigma^2)

    這與方程式 (3.53) 相符。