Skip to main content

解答:均值 μ\mu 的最大似然估計

先備知識

  • 多變量高斯分佈 (Multivariate Gaussian Distribution)
  • 最大似然估計 (Maximum Likelihood Estimation, MLE)
  • 矩陣微積分 (Matrix Calculus)

逐步推導 (Step-by-Step Derivation)

1. 寫出似然函數 (Likelihood Function) 來自多變量高斯分佈的單一樣本 xiRdx_i \in \mathbb{R}^d 的概率密度函數 (Probability Density Function, PDF) 為:

p(xiμ,Σ)=1(2π)d/2Σ1/2exp(12(xiμ)TΣ1(xiμ))p(x_i | \mu, \Sigma) = \frac{1}{(2\pi)^{d/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (x_i - \mu)^T \Sigma^{-1} (x_i - \mu) \right)

假設樣本 {x1,,xN}\{x_1, \cdots, x_N\} 是獨立同分佈的 (i.i.d.),則似然函數 L(μ,Σ)L(\mu, \Sigma) 是各個概率的乘積:

L(μ,Σ)=i=1Np(xiμ,Σ)L(\mu, \Sigma) = \prod_{i=1}^N p(x_i | \mu, \Sigma)

2. 建立對數似然函數 (Log-Likelihood) 為了簡化求導過程,我們對似然函數取自然對數,得到對數似然函數 (μ,Σ)\ell(\mu, \Sigma)

(μ,Σ)=logL(μ,Σ)=i=1Nlogp(xiμ,Σ)\ell(\mu, \Sigma) = \log L(\mu, \Sigma) = \sum_{i=1}^N \log p(x_i | \mu, \Sigma) (μ,Σ)=i=1N(d2log(2π)12logΣ12(xiμ)TΣ1(xiμ))\ell(\mu, \Sigma) = \sum_{i=1}^N \left( -\frac{d}{2} \log(2\pi) - \frac{1}{2} \log |\Sigma| - \frac{1}{2} (x_i - \mu)^T \Sigma^{-1} (x_i - \mu) \right)

去掉不依賴於 μ\mu 的常數項,與 μ\mu 相關的目標函數為:

J(μ)=12i=1N(xiμ)TΣ1(xiμ)J(\mu) = -\frac{1}{2} \sum_{i=1}^N (x_i - \mu)^T \Sigma^{-1} (x_i - \mu)

3. 展開二次項 (Quadratic Term) 我們展開 (xiμ)TΣ1(xiμ)(x_i - \mu)^T \Sigma^{-1} (x_i - \mu) 這一項:

(xiμ)TΣ1(xiμ)=xiTΣ1xixiTΣ1μμTΣ1xi+μTΣ1μ(x_i - \mu)^T \Sigma^{-1} (x_i - \mu) = x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu - \mu^T \Sigma^{-1} x_i + \mu^T \Sigma^{-1} \mu

因為 Σ\Sigma 是對稱矩陣 (symmetric matrix) (Σ=ΣT\Sigma = \Sigma^T),其逆矩陣 Σ1\Sigma^{-1} 也是對稱的。因此,內積結果為標量,有 xiTΣ1μ=(μTΣ1xi)T=μTΣ1xix_i^T \Sigma^{-1} \mu = (\mu^T \Sigma^{-1} x_i)^T = \mu^T \Sigma^{-1} x_i

(xiμ)TΣ1(xiμ)=xiTΣ1xi2μTΣ1xi+μTΣ1μ(x_i - \mu)^T \Sigma^{-1} (x_i - \mu) = x_i^T \Sigma^{-1} x_i - 2 \mu^T \Sigma^{-1} x_i + \mu^T \Sigma^{-1} \mu

4. 對 μ\mu 求偏導 (Compute Derivative)J(μ)J(\mu) 關於 μ\mu 求偏導數:

μJ(μ)=12i=1Nμ(xiTΣ1xi2(Σ1xi)Tμ+μTΣ1μ)\frac{\partial}{\partial \mu} J(\mu) = -\frac{1}{2} \sum_{i=1}^N \frac{\partial}{\partial \mu} \left( x_i^T \Sigma^{-1} x_i - 2 (\Sigma^{-1} x_i)^T \mu + \mu^T \Sigma^{-1} \mu \right)

利用提示中給出的恆等式:

  • μxiTΣ1xi=0\frac{\partial}{\partial \mu} x_i^T \Sigma^{-1} x_i = 0 (對 μ\mu 而言是常數)
  • μ(2(Σ1xi)Tμ)=2Σ1xi\frac{\partial}{\partial \mu} \left( -2 (\Sigma^{-1} x_i)^T \mu \right) = -2 \Sigma^{-1} x_i
  • μ(μTΣ1μ)=Σ1μ+(Σ1)Tμ=2Σ1μ\frac{\partial}{\partial \mu} (\mu^T \Sigma^{-1} \mu) = \Sigma^{-1} \mu + (\Sigma^{-1})^T \mu = 2 \Sigma^{-1} \mu (因為 Σ1\Sigma^{-1} 係對稱的)

將這些結果代入求和公式:

μ=12i=1N(2Σ1xi+2Σ1μ)=i=1NΣ1(xiμ)\frac{\partial \ell}{\partial \mu} = -\frac{1}{2} \sum_{i=1}^N \left( -2 \Sigma^{-1} x_i + 2 \Sigma^{-1} \mu \right) = \sum_{i=1}^N \Sigma^{-1} (x_i - \mu)

5. 導數設為零並求解 μ^\hat{\mu} 為了尋找極大值,將導數設為零向量:

i=1NΣ1(xiμ^)=0\sum_{i=1}^N \Sigma^{-1} (x_i - \hat{\mu}) = 0

因為 Σ1\Sigma^{-1} 是一個常數矩陣 (且可逆),我們可以將等式兩邊同時左乘 Σ\Sigma

i=1N(xiμ^)=0\sum_{i=1}^N (x_i - \hat{\mu}) = 0 i=1NxiNμ^=0    Nμ^=i=1Nxi\sum_{i=1}^N x_i - N \hat{\mu} = 0 \implies N \hat{\mu} = \sum_{i=1}^N x_i μ^ML=1Ni=1Nxi\hat{\mu}_{ML} = \frac{1}{N} \sum_{i=1}^N x_i

這證明了均值的最大似然估計正好就是樣本均值 (Sample Mean)。