先備知識
- 多變量高斯分佈 (Multivariate Gaussian Distribution)
- 最大似然估計 (Maximum Likelihood Estimation, MLE)
- 矩陣微積分 (Matrix Calculus)
逐步推導 (Step-by-Step Derivation)
1. 寫出似然函數 (Likelihood Function)
來自多變量高斯分佈的單一樣本 xi∈Rd 的概率密度函數 (Probability Density Function, PDF) 為:
p(xi∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(xi−μ)TΣ−1(xi−μ))
假設樣本 {x1,⋯,xN} 是獨立同分佈的 (i.i.d.),則似然函數 L(μ,Σ) 是各個概率的乘積:
L(μ,Σ)=i=1∏Np(xi∣μ,Σ)
2. 建立對數似然函數 (Log-Likelihood)
為了簡化求導過程,我們對似然函數取自然對數,得到對數似然函數 ℓ(μ,Σ):
ℓ(μ,Σ)=logL(μ,Σ)=i=1∑Nlogp(xi∣μ,Σ)
ℓ(μ,Σ)=i=1∑N(−2dlog(2π)−21log∣Σ∣−21(xi−μ)TΣ−1(xi−μ))
去掉不依賴於 μ 的常數項,與 μ 相關的目標函數為:
J(μ)=−21i=1∑N(xi−μ)TΣ−1(xi−μ)
3. 展開二次項 (Quadratic Term)
我們展開 (xi−μ)TΣ−1(xi−μ) 這一項:
(xi−μ)TΣ−1(xi−μ)=xiTΣ−1xi−xiTΣ−1μ−μTΣ−1xi+μTΣ−1μ
因為 Σ 是對稱矩陣 (symmetric matrix) (Σ=ΣT),其逆矩陣 Σ−1 也是對稱的。因此,內積結果為標量,有 xiTΣ−1μ=(μTΣ−1xi)T=μTΣ−1xi:
(xi−μ)TΣ−1(xi−μ)=xiTΣ−1xi−2μTΣ−1xi+μTΣ−1μ
4. 對 μ 求偏導 (Compute Derivative)
對 J(μ) 關於 μ 求偏導數:
∂μ∂J(μ)=−21i=1∑N∂μ∂(xiTΣ−1xi−2(Σ−1xi)Tμ+μTΣ−1μ)
利用提示中給出的恆等式:
- ∂μ∂xiTΣ−1xi=0 (對 μ 而言是常數)
- ∂μ∂(−2(Σ−1xi)Tμ)=−2Σ−1xi
- ∂μ∂(μTΣ−1μ)=Σ−1μ+(Σ−1)Tμ=2Σ−1μ (因為 Σ−1 係對稱的)
將這些結果代入求和公式:
∂μ∂ℓ=−21i=1∑N(−2Σ−1xi+2Σ−1μ)=i=1∑NΣ−1(xi−μ)
5. 導數設為零並求解 μ^
為了尋找極大值,將導數設為零向量:
i=1∑NΣ−1(xi−μ^)=0
因為 Σ−1 是一個常數矩陣 (且可逆),我們可以將等式兩邊同時左乘 Σ:
i=1∑N(xi−μ^)=0
i=1∑Nxi−Nμ^=0⟹Nμ^=i=1∑Nxi
μ^ML=N1i=1∑Nxi
這證明了均值的最大似然估計正好就是樣本均值 (Sample Mean)。