問題 3.8(c) 解釋
為什麼要積分?
在貝葉斯預測中,我們不只是選取一個“最佳”的 值並用它來預測(這是 MLE 或 MAP 所做的)。相反,我們考慮 的 所有可能值,並根據給定數據的可能性(後驗)對其進行加權。
如果後驗在 0.7 附近很尖銳,那麼接近 0.7 的值在該積分中佔主導地位。如果後驗很寬(不確定性高),積分會平均來自許多不同 的預測。
拉普拉斯平滑 (Laplace Smoothing)
結果 在歷史上著名的 拉普拉斯繼承法則 (Laplace's Rule of Succession)。 想像你連續 天看到太陽升起 ()。
- MLE 說明天太陽升起的概率是 (100% 確定)。這是有風險的;僅僅因為它以前發生過,並不邏輯上保證它會永遠發生。
- 具有均勻先驗的貝葉斯估計說是 。對於大的 ,它非常接近 1,但從不完全是 1。它為“黑天鵝”事件留下了極小的概率。
與偽計數 (Pseudocounts) 的聯繫
Beta 先驗的參數 和 可以直接解釋為 偽計數。
- 均勻先驗:Beta(1, 1)。
- 有效成功數 ... 等等,偽計數直接匹配參數 嗎?
- 讓我們檢查 Beta() 的均值。它是 。
- 後驗是 Beta()。
- 均值是 。
- 這與從 開始是一致的。
- “虛擬樣本”計數 = 。
- 虛擬成功數 = 。
- 虛擬失敗數 = 。
- 所以是的,先驗算作 1 次成功和 1 次失敗。