協方差 MLE 的解釋

目標

我們希望找到一個協方差矩陣 $\Sigma$ ，來描述數據分佈的「散佈」和「形狀」，使得觀測到數據樣本 $\{x_1, \dots, x_N\}$ 的可能性最大。

跡 (Trace) 技巧：高斯 PDF 中涉及的表達式 $(x-\mu)^T \Sigma^{-1} (x-\mu)$ 是一個純量。純量的跡等於其自身。跡的一個方便性質是循環置換： $\text{tr}(ABC) = \text{tr}(BCA)$ 。利用這一點，我們可以移動向量 $x-\mu$ 來形成「外積」 $(x-\mu)(x-\mu)^T$ ，這看起來像協方差矩陣的結構。這允許我們將所有數據求和分組到一個單一矩陣 $S$ ，即散佈矩陣。
行列式的導數：似然項包含 $\log|\Sigma|$ 。 $\log(\text{det}(X))$ 的導數與矩陣的逆 $X^{-1}$ 相關。直覺上，最大化似然可以防止行列式（機率密度的體積）塌縮為零或相對於指數衰減項無限增大。
逆矩陣跡的導數：指數項涉及 $\Sigma^{-1}$ 。對矩陣函數的逆進行微分稍微複雜一些，但提供的恆等式簡化了它。它本質上來自規則 $d(X^{-1}) = -X^{-1} (dX) X^{-1}$ 。
平衡：導數方程式 $-\frac{N}{2} \Sigma^{-1} + \frac{1}{2} \Sigma^{-1} S \Sigma^{-1} = 0$ 代表一種平衡。第一項來自歸一化常數（試圖使 $\Sigma$ 變小以增加密度），第二項來自指數「誤差」（試圖使 $\Sigma$ 變大以容納數據散佈）。
結果：解 $\hat{\Sigma} = \frac{1}{N} S$ 基本上說明了最可能的協方差形狀正是數據點的平均經驗協方差。（注意：在標準統計學中，為了不偏估計量，我們通常除以 $N-1$ ，但純 MLE 除以 $N$ ）。