均值 MLE 的解釋

目標

我們希望找到一個均值向量 $\mu$ 的值，使得觀測到的數據樣本 $\{x_1, \dots, x_N\}$ 出現的機率最大。這就是最大似然估計 (Maximum Likelihood Estimation, MLE) 的核心精神。

公式化似然函數：我們從單個數據點的機率密度函數 (PDF) 開始。由於我們假設樣本是獨立的，聯合機率（似然）就是各個機率的乘積。
取對數技巧 (Log-Trick)：將許多機率（小於 1 的小數）相乘在計算上很困難且不穩定。取自然對數可以將乘積轉換為總和。因為 $\log(x)$ 是一個嚴格遞增函數，所以最大化對數似然等同於最大化似然。
專注於 $\mu$ ：我們檢視對數似然方程式。為了找到相對於 $\mu$ 的最大值，我們尋找函數的「峰值」。微積分告訴我們，這個峰值出現在梯度（導數）為零的地方。
微分：我們對向量 $\mu$ 微分對數似然函數。關鍵項包含一個二次形式 $(x_i - \mu)^T \Sigma^{-1} (x_i - \mu)$ ，這代表點 $x_i$ 到均值 $\mu$ 的多變量「距離」（馬哈拉諾比斯距離, Mahalanobis distance）。其導數本質上類似於一維中 $(x-\mu)^2$ 的導數，即 $2(x-\mu)(-1)$ 。在矩陣微積分中，協方差矩陣 $\Sigma^{-1}$ 充當加權因子。
求解：將導數設為零得到一個線性方程組。我們發現最佳的 $\mu$ 僅僅是所有數據點的算術平均值。這符合我們的直覺：高斯點雲中心的最佳估計就是這些點的平均值。