預備知識
-
預測分佈 (Predictive Distribution):給定觀測數據 D,在參數 π 上進行邊緣化後,新樣本 x 的概率:
p(x∣D)=∫p(x∣π)p(π∣D)dπ
這通常等同於求後驗分佈下似然參數的期望值。
-
伯努利期望:由於 x∈{0,1},
- p(x=1∣D)=E[π∣D]
- p(x∣D) 可以寫成 π^x(1−π^)1−x 其中 π^=p(x=1∣D)。
分步證明
-
確定 p(x=1∣D):
下一個結果為 1 (x=1) 的預測概率是:
p(x=1∣D)=∫01p(x=1∣π)p(π∣D)dπ
由於 p(x=1∣π)=π:
p(x=1∣D)=∫01π⋅p(π∣D)dπ=E[π∣D]
這只是後驗分佈的均值。
-
計算後驗均值:
將公式 (3.33) 代入積分中:
E[π∣D]=∫01π[s!(n−s)!(n+1)!πs(1−π)n−s]dπ
=s!(n−s)!(n+1)!∫01πs+1(1−π)n−sdπ
-
應用積分恆等式:
再次使用等式 (3.32),其中 m=s+1,(1−π) 的指數為 n−s。
∫01πs+1(1−π)n−sdπ=((s+1)+(n−s)+1)!(s+1)!(n−s)!=(n+2)!(s+1)!(n−s)!
-
合併項:
E[π∣D]=s!(n−s)!(n+1)!⋅(n+2)!(s+1)!(n−s)!
消去 (n−s)!:
=s!(n+1)!⋅(n+2)!(s+1)!
展開階乘:
- s!(s+1)!=s+1
- (n+2)!(n+1)!=n+21
E[π∣D]=n+2s+1
-
制定預測 PDF:
由於 x 是伯努利變量,如果 P(x=1)=n+2s+1,則:
p(x∣D)=(n+2s+1)x(1−n+2s+1)1−x
這與公式 (3.34) 相符。
有效貝葉斯估計
π 的有效貝葉斯估計(即用於預測的參數)是:
π^Bayes=n+2s+1
直觀解釋(“虛擬”樣本)
最大似然估計 (MLE) 是 π^MLE=ns (成功次數 / 總數)。
貝葉斯估計可以重寫為:
π^Bayes=n+2s+1
直觀理解:
我們可以想像在開始之前,我們向數據集中添加了 2 個虛擬樣本:
- 1 個虛擬成功 (分子 +1)
- 1 個虛擬失敗 (+1 到失敗計數,所以總樣本數 n 增加 2)
因此,n→n+2(總虛擬大小)和 s→s+1(總虛擬成功數)。
這些“虛擬計數”來自 均勻先驗。均勻先驗就像我們已經看到了一個正面和一個反面,從而平滑了估計。這可以防止估計值為 0 或 1,即使 n 很小(拉普拉斯平滑)。