Skip to main content

協方差 MLE 的解釋

目標

我們希望找到一個協方差矩陣 Σ\Sigma,來描述數據分佈的「散佈」和「形狀」,使得觀測到數據樣本 {x1,,xN}\{x_1, \dots, x_N\} 的可能性最大。

過程

  1. 跡 (Trace) 技巧:高斯 PDF 中涉及的表達式 (xμ)TΣ1(xμ)(x-\mu)^T \Sigma^{-1} (x-\mu) 是一個純量。純量的跡等於其自身。跡的一個方便性質是循環置換:tr(ABC)=tr(BCA)\text{tr}(ABC) = \text{tr}(BCA)。利用這一點,我們可以移動向量 xμx-\mu 來形成「外積」(xμ)(xμ)T(x-\mu)(x-\mu)^T,這看起來像協方差矩陣的結構。這允許我們將所有數據求和分組到一個單一矩陣 SS,即散佈矩陣。

  2. 行列式的導數:似然項包含 logΣ\log|\Sigma|log(det(X))\log(\text{det}(X)) 的導數與矩陣的逆 X1X^{-1} 相關。直覺上,最大化似然可以防止行列式(機率密度的體積)塌縮為零或相對於指數衰減項無限增大。

  3. 逆矩陣跡的導數:指數項涉及 Σ1\Sigma^{-1}。對矩陣函數的逆進行微分稍微複雜一些,但提供的恆等式簡化了它。它本質上來自規則 d(X1)=X1(dX)X1d(X^{-1}) = -X^{-1} (dX) X^{-1}

  4. 平衡:導數方程式 N2Σ1+12Σ1SΣ1=0-\frac{N}{2} \Sigma^{-1} + \frac{1}{2} \Sigma^{-1} S \Sigma^{-1} = 0 代表一種平衡。第一項來自歸一化常數(試圖使 Σ\Sigma 變小以增加密度),第二項來自指數「誤差」(試圖使 Σ\Sigma 變大以容納數據散佈)。

  5. 結果:解 Σ^=1NS\hat{\Sigma} = \frac{1}{N} S 基本上說明了最可能的協方差形狀正是數據點的平均經驗協方差。(注意:在標準統計學中,為了不偏估計量,我們通常除以 N1N-1,但純 MLE 除以 NN)。