在 (a) 部分,目標函數 ∑Njlogπj 導致的解中,πj 與 Nj 成線性正比。這是多項分佈標準 MLE 的特徵。
在 (b) 部分,目標函數略有不同:∑πj(Nj−logπj)。這看起來像是一個熵 (entropy) 項 (πlogπ) 結合一個線性項 (πN)。
當我們在總和約束 ∑πj=1 下最大化這個函數時:
- 似然 vs 熵:−πjlogπj 項是熵。最大化熵通常傾向於均勻分佈。πjNj 項則根據 Nj 對機率進行加權。
- 指數關係:
- logx 的導數是 1/x。
- xlogx 的導數是 1+logx。
- 因為目標函數具有 πlogπ 的形式,其導數包含 logπ 項(沒有 (a) 部分中看到的 1/π 縮放)。
- 為了解決 logπ=C(其中 C 是源自其他項的常數),我們必須使用指數函數:π=eC。
- Softmax 函數:結果形式 πj=∑exp(Nk)exp(Nj) 即著名的 Softmax 函數。它將一個實數向量 N 轉換為與輸入數值的指數成正比的機率分佈。這廣泛應用於神經網路和機器學習中,用於將 logit 轉換為機率。