眾數 vs 均值
- MAP 估計後驗的 眾數 (Mode)。
- 貝葉斯預測 (來自 c 部分) 使用後驗的 均值 (Mean)。
對於 Beta 分佈 Beta(α,β):
- 眾數 = α+β−2α−1
- 均值 = α+βα
使用均勻先驗 (α=1,β=1) 和數據 (s,n−s):
後驗為 Beta(s+1,n−s+1)。
- αpost=s+1
- βpost=n−s+1
MAP (眾數):
(s+1)+(n−s+1)−2(s+1)−1=n+2−2s=ns
(嚴格來說,這僅在計數 > 1 時有定義,但極限成立)。
貝葉斯估計量 (均值):
(s+1)+(n−s+1)s+1=n+2s+1
為什麼這裡 MAP 等於 ML?
MAP 是 ML 乘以先驗。如果先驗是平坦的(乘以 1),景觀中的“山丘”完全由似然函數定義。所以峰值(眾數)在同一地點。
實際意義
在機器學習中,我們通常更喜歡貝葉斯均值(或平滑估計),因為預測恰好為 0 或 1 是危險的。如果你估計某個事件的概率為 0,而它發生了,你的誤差(對數損失)是無限的。貝葉斯估計通過對不確定性進行積分,自然地防止了這種情況。