Skip to main content

問題 3.8(c) 解釋

為什麼要積分?

在貝葉斯預測中,我們不只是選取一個“最佳”的 π\pi 值並用它來預測(這是 MLE 或 MAP 所做的)。相反,我們考慮 π\pi所有可能值,並根據給定數據的可能性(後驗)對其進行加權。

P(正面數據)=P(正面π)P(π數據)dπP(\text{正面}|\text{數據}) = \int P(\text{正面}|\pi) P(\pi|\text{數據}) d\pi

如果後驗在 0.7 附近很尖銳,那麼接近 0.7 的值在該積分中佔主導地位。如果後驗很寬(不確定性高),積分會平均來自許多不同 π\pi 的預測。

拉普拉斯平滑 (Laplace Smoothing)

結果 s+1n+2\frac{s+1}{n+2} 在歷史上著名的 拉普拉斯繼承法則 (Laplace's Rule of Succession)。 想像你連續 nn 天看到太陽升起 (s=ns=n)。

  • MLE 說明天太陽升起的概率是 n/n=1n/n = 1 (100% 確定)。這是有風險的;僅僅因為它以前發生過,並不邏輯上保證它會永遠發生。
  • 具有均勻先驗的貝葉斯估計說是 n+1n+2\frac{n+1}{n+2}。對於大的 nn,它非常接近 1,但從不完全是 1。它為“黑天鵝”事件留下了極小的概率。

與偽計數 (Pseudocounts) 的聯繫

Beta 先驗的參數 α\alphaβ\beta 可以直接解釋為 偽計數

  • 均勻先驗:Beta(1, 1)。
    • 有效成功數 s=s+(α1)=s+0s' = s + (\alpha - 1) = s + 0 ... 等等,偽計數直接匹配參數 α,β\alpha, \beta 嗎?
    • 讓我們檢查 Beta(α,β\alpha, \beta) 的均值。它是 αα+β\frac{\alpha}{\alpha+\beta}
    • 後驗是 Beta(s+1,ns+1s+1, n-s+1)。
    • 均值是 s+1s+1+ns+1=s+1n+2\frac{s+1}{s+1 + n-s+1} = \frac{s+1}{n+2}
    • 這與從 α=1,β=1\alpha=1, \beta=1 開始是一致的。
    • “虛擬樣本”計數 = α+β=2\alpha + \beta = 2
    • 虛擬成功數 = α=1\alpha = 1
    • 虛擬失敗數 = β=1\beta = 1
    • 所以是的,先驗算作 1 次成功和 1 次失敗。