我們希望找到一個協方差矩陣 Σ,來描述數據分佈的「散佈」和「形狀」,使得觀測到數據樣本 {x1,…,xN} 的可能性最大。
-
跡 (Trace) 技巧:高斯 PDF 中涉及的表達式 (x−μ)TΣ−1(x−μ) 是一個純量。純量的跡等於其自身。跡的一個方便性質是循環置換:tr(ABC)=tr(BCA)。利用這一點,我們可以移動向量 x−μ 來形成「外積」(x−μ)(x−μ)T,這看起來像協方差矩陣的結構。這允許我們將所有數據求和分組到一個單一矩陣 S,即散佈矩陣。
-
行列式的導數:似然項包含 log∣Σ∣。log(det(X)) 的導數與矩陣的逆 X−1 相關。直覺上,最大化似然可以防止行列式(機率密度的體積)塌縮為零或相對於指數衰減項無限增大。
-
逆矩陣跡的導數:指數項涉及 Σ−1。對矩陣函數的逆進行微分稍微複雜一些,但提供的恆等式簡化了它。它本質上來自規則 d(X−1)=−X−1(dX)X−1。
-
平衡:導數方程式 −2NΣ−1+21Σ−1SΣ−1=0 代表一種平衡。第一項來自歸一化常數(試圖使 Σ 變小以增加密度),第二項來自指數「誤差」(試圖使 Σ 變大以容納數據散佈)。
-
結果:解 Σ^=N1S 基本上說明了最可能的協方差形狀正是數據點的平均經驗協方差。(注意:在標準統計學中,為了不偏估計量,我們通常除以 N−1,但純 MLE 除以 N)。