Explain ZH
EM 推導背後的直覺
期望最大化 (EM) 算法是處理「隱藏」或「缺失」數據時的強大工具。在泊松混合模型的背景下,「缺失數據」是每個炸彈方格的標籤:這個方格屬於哪個分量(目標類型)?
如果我們確切知道方格 A 是一個目標()而方格 B 不是(),我們只需將數據分成兩堆,並分別計算每一堆的平均值()。這就是我們所說的標準最大似然估計 (MLE)。
然而,我們不知道標籤。我們只看到炸彈的計數。
E 步:軟分配 (Soft Assignment)
因為我們不知道標籤,所以我們猜測概率。這就是 E 步。我們問:鑑於我們目前對速率()的最佳猜測,一個有 枚炸彈的方格屬於第 1 組與第 2 組的可能性有多大? 如果一個方格有 5 枚炸彈,且 ,那麼它極有可能來自第 1 組。我們分配給它,比如說,屬於第 1 組的 99.9% 的責任度。如果它有 2 枚炸彈,可能是 60% 第 1 組,40% 第 2 組。
M 步:加權 MLE (Weighted MLE)
現在我們假定這些概率是真實的。這就是 M 步。 為了更新我們對 的估計,我們查看所有方格,但我們更重視那些我們認為屬於第 1 組的方格。
- 公式 正是這種「加權平均」。
- 將炸彈總數加起來,但乘以了我們確信它屬於第 組的程度。
- 是第 組中方格的「有效總數」。
因此,M 步在數學上與標準泊松 MLE(總炸彈數 / 總方格數)完全相同,但推廣到了分數(概率)隸屬關係。