均值 MLE 的解釋
目標
我們希望找到一個均值向量 的值,使得觀測到的數據樣本 出現的機率最大。這就是最大似然估計 (Maximum Likelihood Estimation, MLE) 的核心精神。
過程
- 公式化似然函數:我們從單個數據點的機率密度函數 (PDF) 開始。由於我們假設樣本是獨立的,聯合機率(似然)就是各個機率的乘積。
- 取對數技巧 (Log-Trick):將許多機率(小於 1 的小數)相乘在計算上很困難且不穩定。取自然對數可以將乘積轉換為總和。因為 是一個嚴格遞增函數,所以最大化對數似然等同於最大化似然。
- 專注於 :我們檢視對數似然方程式。為了找到相對於 的最大值,我們尋找函數的「峰值」。微積分告訴我們,這個峰值出現在梯度(導數)為零的地方。
- 微分:我們對向量 微分對數似然函數。關鍵項包含一個二次形式 ,這代表點 到均值 的多變量「距離」(馬哈拉諾比斯距離, Mahalanobis distance)。其導數本質上類似於一維中 的導數,即 。在矩陣微積分中,協方差矩陣 充當加權因子。
- 求解:將導數設為零得到一個線性方程組。我們發現最佳的 僅僅是所有數據點的算術平均值。這符合我們的直覺:高斯點雲中心的最佳估計就是這些點的平均值。