為什麼是 2π 和 2(1−π)?
這些是線性函數。
- 2π 是一條從 0 到 2 的直線。三角形下的面積是 0.5×底×高=0.5×1×2=1。所以它是一個有效的 PDF。它將最大的權重放在 π=1 上。
- 2(1−π) 是一條從 2 到 0 的直線。面積也是 1。它將最大的權重放在 π=0 上。
映射到偽計數 (Pseudocounts)
關鍵的見解是將多項式寫成 πα−1(1−π)β−1 的形式。
- 對於 2π,π 的指數是 1。因為 α−1=1,所以 α=2。(1−π) 的指數是 0。因為 β−1=0,所以 β=1。
- 通常,我們說 α 計算成功次數,β 計算失敗次數。
- 然而,對於 MAP 估計,“中性”點不是 α=0,β=0(這是不正確的)或 α=1,β=1(均勻)。
- 等等,讓我們再看看 MAP 公式:
π^MAP=n+α+β−2s+α−1
-
如果 α=2,β=1 (先驗 p1):
分子=s+1
分母=n+2+1−2=n+1
結果:n+1s+1。
這看起來像我們向分子添加了 1 次成功,向分母添加了 1 次試驗。
所以:1 次虛擬成功,0 次虛擬失敗。
-
如果 α=1,β=2 (先驗 p0):
分子=s+0
分母=n+1+2−2=n+1
結果:n+1s。
這看起來像我們向分子添加了 0 次成功,向分母添加了 1 次試驗。
所以:0 次虛擬成功,1 次虛擬失敗。
偏差總結
- p1 編碼了一種信念:“我已經看到了一次成功”。
- p0 編碼了一種信念:“我已經看到了一次失敗”。
- 均勻(來自前面的部分)編碼了“我什麼都沒看到?還是各看到 1 個?”
- 均勻分佈的 MAP (α=1,β=1):ns。(0 個添加樣本)。
- 所以,相對於均勻 MAP,p1 增加了一次成功,p0 增加了一次失敗。