Explain ZH
直覺概念 (Intuition)
不同於 (a) 小題中單純只含有 的目標,在 (b) 小題裡面的目標函數形式為 。我們可以把它拆解爲兩股相互競爭的力量:
- 線性牽引 (The Linear Pull) ():這一部份傾盡全力想把全數的機率權重投放在擁有最大分數 的單一索引 之上。如果只有這項存在,解就會是完全確定性的 (給最強者 的機率,其餘全為 )。
- 熵的推擠 (The Entropy Push) ():這其實就是香農熵 (Shannon Entropy) 的公式。熵衡量的是不確定性或是「平滑程度」。對熵進行最大化會將機率分配推往盡可能均勻的狀態(彼此分散開來),這積極地抵抗了把全數權重集中在單一贏家身上的拉力。
藉由將這兩者結合在一起,這個最佳化問題就變成了一種博弈式的權衡 (trade-off) 行為:它偏好取值越高的 狀態,但在同時會維持具備多樣性的一個概率分佈。
Softmax 函數 (The Softmax Function)
其衍生的直接結果就是得到了 Softmax 函數 (Softmax Function):
這是機器學習 (特別在神經網路模型) 領域中幾乎無所不在的一個函數,專門用來將任意帶有評分的 (logits) 正規轉換成有效且和為一的機率分佈 (probability distribution)。
- 非負性 (Non-negativity):憑藉自然指數函數 ,可以確保哪怕是負邏輯強度的分數,也能被對應轉換成微小但不為負的正值機率。
- 加總為 1 (Sum to 1):分母上的總和精確用作抵銷分子計算產生的數值,使它們變為表示整體相對份額的百分比。
graph TD
A["目標函數: $\sum \pi_j (N_j - \log \pi_j)$"] --> B["線性牽引區塊: $\pi_j N_j$<br>(偏好數值較大的 $N_j$)"]
A --> C["熵的推擠區塊: $-\pi_j \log \pi_j$<br>(鼓勵分配的多樣性)"]
B --> D{約束條件:加總為 1}
C --> D
D --> E[Softmax 分佈]
E --> F["$$\pi_j \propto \exp(N_j)$$"]
常見誤區 (Common Pitfalls)
- 對數微積分錯誤 (Logarithm Rules):在針對 進行偏導數求解時極容易犯錯。得緊記務必應用乘積法則 (Product Rule,即 ) 來求偏導,這可以防範將結果誤認為只有 的低級失誤,正確的導數求解為 。
- 弄錯常數拘束項 (Mistaking the constraint):跟 (a) 小題情況極為相像,得謹慎操作指數相加規則,把乘子平順地分離提出: 在這裡得用乘法抽離出常數縮放基數,而不是以常數相加的方式移除。