Skip to main content

Explain ZH

直覺與概念 (Intuition)

在傳統的 (頻率學派) 機器學習中,進行預測很簡單:你找到一組「最佳」的權重 θ^\hat{\theta},代入你的新資料點 xx_*,然後吐出一個單一的數字 y=ϕ(x)Tθ^y_* = \phi(x_*)^T \hat{\theta}

然而,貝葉斯框架承認我們永遠無法 100% 確定真正的權重是什麼。我們擁有的是可能權重的一個分佈(即後驗分佈 p(θD)p(\theta|\mathcal{D}))。

因此,為了做出嚴謹數學上的預測,我們必須詢問每一個可能的模型它認為預測結果應該是什麼,然後進行投票,而每個模型的投票權重由該模型的可能性來決定。這就是積分 p(yx,θ)p(θD)dθ\int p(y_*|x_*, \theta) p(\theta|\mathcal{D}) d\theta 正在做的事情。

兩種類型的不確定性 (Two Types of Uncertainty)

最終公式 p(yx,D)=N(yμ^,σ2+σ^2)p(y_*|x_*, \mathcal{D}) = \mathcal{N}(y_*|\hat{\mu}_*, \sigma^2 + \hat{\sigma}^2_*) 的美妙之處在於,它明確地將我們對未來的不確定性分成了兩個獨立的區塊:

  1. 認知不確定性 (Epistemic Uncertainty, σ^2\hat{\sigma}^2_*):這是因為我們缺乏知識或資料而產生的不確定性。
    • 請注意 σ^2=ϕ(x)TΣ^θϕ(x)\hat{\sigma}^2_* = \phi(x_*)^T \hat{\Sigma}_\theta \phi(x_*) 依賴於 Σ^θ\hat{\Sigma}_\theta (我們對權重的後驗不確定性) 和 xx_*
    • 如果你要求模型預測一個與訓練資料非常相似的點 xx_*,這個變異數會很小。
    • 如果你要求模型預測一個離任何訓練資料都非常遙遠的點,各個可能的模型將會產生極大的分歧,而 σ^2\hat{\sigma}^2_* 將會飆升。這等於模型在說:「我不知道,我以前沒見過類似的東西!」 隨著我們收集更多資料,這種不確定性會縮小。
  2. 偶然不確定性 (Aleatoric Uncertainty, σ2\sigma^2):這是宇宙中固有的雜訊。即使我們擁有無限量的訓練資料,並且完美地知道了「真正的」線 (ff_*),實際觀察到的值 yy_* 仍然會因為隨機雜訊 ϵ\epsilon 而在那條線周圍跳動。無論我們收集多少資料,這種 σ2\sigma^2 的變異數永遠無法消除。