Explain ZH
解說
理想情況下,我們會希望獨立地為每個 最大化 。然而,我們有一個 約束條件。我們正在建模機率,因此所有 的總和必須正好為 1。如果我們只是單純增加某個 來最大化對數似然值而不考慮懲罰,我們可能會打破這個規則(例如,它們的總和可能會超過 1)。
拉格朗日乘數 (Lagrange Multiplier) 方法引入了一個新變數 (lambda) 來強制執行這個「總和為 1」的規則。
- 回顧公式:多項分佈 (multinomial distribution) 的對數機率包含 這樣的項。
- 梯度 (Gradient):我們想要沿著這個函數的斜率(梯度)找到頂點(最大值)。
- 平衡力: 這一項充當平衡力。
- 當我們對 取導數時,得到 。
- 這意味著 與 成正比(具體來說 )。
- 歸一化 (Normalization):由於所有 的總和必須為 1,且每個 都與 成正比,因此比例常數必須確保總和為 1。
- 部分之和 = 的總和。
- 因此,每個部分 僅僅是該類別被觀察到的次數 () 除以總觀察次數 ()。
這個結果非常直觀:類別機率的極大似然估計 (MLE) 僅僅是該類別被觀察到的比例(即 除以總數 )。