預備知識 (Prerequisites)
- 期望最大化演算法 (Expectation-Maximization Algorithm, EM):一種迭代方法,用於尋找統計模型中依賴未觀察到的潛在變數 (latent variables) 的參數的最大概似估計 (Maximum Likelihood Estimates)。
- 最大概似估計 (Maximum Likelihood Estimation, MLE):一種給定觀察數據來估計統計模型參數的方法。
- 指數分佈 (Exponential Distribution):一種由速率參數 (rate parameter) λ 參數化的連續機率分佈。其機率密度函數 (Probability Density Function, PDF) 為 f(x;λ)=λe−λx。
- 拉格朗日乘數法 (Lagrange Multipliers):一種尋找在方程式約束下函數局部最大值與最小值的策略。
推導步驟 (Step-by-Step Derivation)
為了推導指數混合模型的 EM 演算法,我們首先為每個樣本 xi 引入一個潛在變數 (latent variable) zi∈{1,…,K},指出 xi 是從哪個成分 (component) 生成的。我們將 zi 表示為 one-hot 向量,如果 xi 屬於成分 j,則 zij=1,否則為 0。
給定完整數據 (complete data) (X,Z)={(xi,zi)}i=1n 的對數概似函數 (log-likelihood) 為:
ℓc(θ)=∑i=1nlogp(xi,zi∣θ)=∑i=1n∑j=1KI(zi=j)log(πjλje−λjxi)
其中 I(zi=j) 是一個指示函數 (indicator function),當 zi=j 時等於 1,反之為 0。
1. 期望步 (E-Step)
在 E 步 (Expectation) 中,我們計算在給定數據 X 以及目前參數估計值 θ(t)={πj(t),λj(t)}j=1K 時,潛在變數 zi 的期望值。
我們定義責任值 (responsibility) γij 為樣本 xi 由成分 j 生成的後驗機率 (posterior probability):
γij=E[I(zi=j)∣xi,θ(t)]=p(zi=j∣xi,θ(t))
使用貝氏定理 (Bayes' theorem):
γij=∑m=1Kp(zi=m∣θ(t))p(xi∣zi=m,θ(t))p(zi=j∣θ(t))p(xi∣zi=j,θ(t))
代入給定的分佈公式:
γij=∑m=1Kπm(t)λm(t)e−λm(t)xiπj(t)λj(t)e−λj(t)xi
我們構建期望的完整數據對數概似函數 (也就是 Q 函數),將指示函數替換為它的期望值 γij:
Q(θ,θ(t))=∑i=1n∑j=1Kγij(logπj+logλj−λjxi)
2. 最大化步 (M-Step)
在 M 步 (Maximization) 中,我們針對參數 θ={πj,λj} 對 Q 函數進行最大化,以找到更新後的參數 θ(t+1)。令 Nj=∑i=1nγij 為分配給成分 j 的有效樣本數。
更新 πj (混合權重, Mixture Weights) :
我們希望在約束條件 ∑j=1Kπj=1 的情況下對 πj 最大化 Q 函數。我們使用拉格朗日乘數 (Lagrange multiplier) α 來引入此約束:
L(π,α)=∑i=1n∑j=1Kγijlogπj+α(1−∑j=1Kπj)
對 πj 偏微分並將其設為零:
∂πj∂L=πj1∑i=1nγij−α=0⟹πj=αNj
對所有 K 個成分求和以解出拉格朗日乘數 α:
∑j=1Kπj=∑j=1KαNj=α1∑j=1K∑i=1nγij=αn=1⟹α=n
因此,混合權重的更新規則為:
πj(t+1)=nNj
更新 λj (成分參數, Component Parameters) :
我們求 Q 函數對 λj 的偏微分,並將其設為零:
∂λj∂Q=∑i=1nγij(λj1−xi)=0
λj1∑i=1nγij−∑i=1nγijxi=0
將責任值的總和替換為 Nj:
λjNj=∑i=1nγijxi
重新整理以解出 λj,我們得到更新規則:
λj(t+1)=∑i=1nγijxiNj
推導出的 EM 演算法總結
給定初始參數 θ(0)={πj(0),λj(0)}j=1K,迭代以下步驟直到收斂:
-
E步 (E-step):計算針對 i=1,…,n 和 j=1,…,K 的責任值:
γij=∑m=1Kπm(t)λm(t)e−λm(t)xiπj(t)λj(t)e−λj(t)xi
-
M步 (M-step):利用責任值更新參數:
Nj=∑i=1nγij
πj(t+1)=nNj
λj(t+1)=∑i=1nγijxiNj