Skip to main content

均值 MLE 的解釋

目標

我們希望找到一個均值向量 μ\mu 的值,使得觀測到的數據樣本 {x1,,xN}\{x_1, \dots, x_N\} 出現的機率最大。這就是最大似然估計 (Maximum Likelihood Estimation, MLE) 的核心精神。

過程

  1. 公式化似然函數:我們從單個數據點的機率密度函數 (PDF) 開始。由於我們假設樣本是獨立的,聯合機率(似然)就是各個機率的乘積。
  2. 取對數技巧 (Log-Trick):將許多機率(小於 1 的小數)相乘在計算上很困難且不穩定。取自然對數可以將乘積轉換為總和。因為 log(x)\log(x) 是一個嚴格遞增函數,所以最大化對數似然等同於最大化似然。
  3. 專注於 μ\mu:我們檢視對數似然方程式。為了找到相對於 μ\mu 的最大值,我們尋找函數的「峰值」。微積分告訴我們,這個峰值出現在梯度(導數)為零的地方。
  4. 微分:我們對向量 μ\mu 微分對數似然函數。關鍵項包含一個二次形式 (xiμ)TΣ1(xiμ)(x_i - \mu)^T \Sigma^{-1} (x_i - \mu),這代表點 xix_i 到均值 μ\mu 的多變量「距離」(馬哈拉諾比斯距離, Mahalanobis distance)。其導數本質上類似於一維中 (xμ)2(x-\mu)^2 的導數,即 2(xμ)(1)2(x-\mu)(-1)。在矩陣微積分中,協方差矩陣 Σ1\Sigma^{-1} 充當加權因子。
  5. 求解:將導數設為零得到一個線性方程組。我們發現最佳的 μ\mu 僅僅是所有數據點的算術平均值。這符合我們的直覺:高斯點雲中心的最佳估計就是這些點的平均值。