Skip to main content

Answer ZH

預備知識

  • 泊松分佈 (Poisson Distribution):一種離散概率分佈,表示在固定時間間隔內發生給定數量事件的概率。概率質量函數 (PMF):P(kλ)=λkeλk!P(k|\lambda) = \frac{\lambda^k e^{-\lambda}}{k!}
  • 混合模型 (Mixture Model):一種概率模型,用於表示整體群體中存在的子群體。
  • 期望最大化 (EM) 算法:一種迭代方法,用於在統計模型依賴於未觀察到的潛在變量時,尋找參數的最大似然或最大後驗 (MAP) 估計。
    • E 步:計算給定當前參數下潛在變量的期望值。
    • M 步:更新參數以最大化給定預期潛在變量下的似然函數。

分步解答

1. 對數似然函數

設潛在變量 Z={z1,,zn}Z = \{z_1, \dots, z_n\},其中 zi{1,,K}z_i \in \{1, \dots, K\} 指示產生 xix_i 的分量,或者表示為獨熱向量 zi=[zi1,,ziK]Tz_i = [z_{i1}, \dots, z_{iK}]^T

完整數據的對數似然為:

lnp(X,Zθ)=i=1nj=1Kzijln(πjP(xiλj))\ln p(X, Z|\theta) = \sum_{i=1}^n \sum_{j=1}^K z_{ij} \ln (\pi_j P(x_i|\lambda_j)) =i=1nj=1Kzij[lnπj+ln(1xi!eλjλjxi)]= \sum_{i=1}^n \sum_{j=1}^K z_{ij} [\ln \pi_j + \ln (\frac{1}{x_i!} e^{-\lambda_j} \lambda_j^{x_i})] =i=1nj=1Kzij[lnπjλj+xilnλjln(xi!)]= \sum_{i=1}^n \sum_{j=1}^K z_{ij} [\ln \pi_j - \lambda_j + x_i \ln \lambda_j - \ln(x_i!)]

2. E 步 (期望)

我們計算在給定觀測數據 XX 和當前參數 θ(t)\theta^{(t)} 的情況下,潛在變量 zijz_{ij} 的期望值。這個量通常稱為 γij\gamma_{ij} (責任度, responsibility):

γij(t)=E[zijxi,θ(t)]=P(zij=1xi,θ(t))\gamma_{ij}^{(t)} = E[z_{ij}|x_i, \theta^{(t)}] = P(z_{ij}=1|x_i, \theta^{(t)})

使用貝葉斯定理:

γij(t)=πj(t)P(xiλj(t))l=1Kπl(t)P(xiλl(t))\gamma_{ij}^{(t)} = \frac{\pi_j^{(t)} P(x_i|\lambda_j^{(t)})}{\sum_{l=1}^K \pi_l^{(t)} P(x_i|\lambda_l^{(t)})}

其中 P(xiλ)=eλλxixi!P(x_i|\lambda) = \frac{e^{-\lambda}\lambda^{x_i}}{x_i!}

3. M 步 (最大化)

我們針對 θ\theta 最大化完整數據對數似然的期望。Q 函數為:

Q(θ,θ(t))=i=1nj=1Kγij(t)[lnπjλj+xilnλj+常數]Q(\theta, \theta^{(t)}) = \sum_{i=1}^n \sum_{j=1}^K \gamma_{ij}^{(t)} [\ln \pi_j - \lambda_j + x_i \ln \lambda_j + \text{常數}]

更新 πj\pi_j: 這是在約束 πj=1\sum \pi_j = 1 下最大化 i=1nj=1Kγij(t)lnπj\sum_{i=1}^n \sum_{j=1}^K \gamma_{ij}^{(t)} \ln \pi_j。使用拉格朗日乘數法,我們得到:

πj(t+1)=1ni=1nγij(t)=Njn\pi_j^{(t+1)} = \frac{1}{n} \sum_{i=1}^n \gamma_{ij}^{(t)} = \frac{N_j}{n}

其中 Nj=i=1nγij(t)N_j = \sum_{i=1}^n \gamma_{ij}^{(t)} 是分配給分量 jj 的有效數據點數量。

更新 λj\lambda_j: 我們對 QQ 函數關於 λj\lambda_j 求導數並設為 0:

Qλj=i=1nγij(t)[1+xiλj]=0\frac{\partial Q}{\partial \lambda_j} = \sum_{i=1}^n \gamma_{ij}^{(t)} [-1 + \frac{x_i}{\lambda_j}] = 0 i=1nγij(t)+1λji=1nγij(t)xi=0-\sum_{i=1}^n \gamma_{ij}^{(t)} + \frac{1}{\lambda_j} \sum_{i=1}^n \gamma_{ij}^{(t)} x_i = 0

由於 i=1nγij(t)=Nj\sum_{i=1}^n \gamma_{ij}^{(t)} = N_j:

Nj+1λji=1nγij(t)xi=0-N_j + \frac{1}{\lambda_j} \sum_{i=1}^n \gamma_{ij}^{(t)} x_i = 0 λj(t+1)=i=1nγij(t)xiNj=i=1nγij(t)xii=1nγij(t)\lambda_j^{(t+1)} = \frac{\sum_{i=1}^n \gamma_{ij}^{(t)} x_i}{N_j} = \frac{\sum_{i=1}^n \gamma_{ij}^{(t)} x_i}{\sum_{i=1}^n \gamma_{ij}^{(t)}}

與 ML 估計的關係 (問題 2.1)

在問題 2.1 (標準泊松 ML 估計) 中,λ\lambda 的最大似然估計僅僅是樣本均值:

λML=i=1nxin\lambda_{ML} = \frac{\sum_{i=1}^n x_i}{n}

分量 jj 的 M 步估計 λj(t+1)\lambda_j^{(t+1)} 是樣本的加權平均值

  • 每個樣本 xix_i 不是均等地貢獻(權重 1/n1/n),而是根據其責任度 γij(t)\gamma_{ij}^{(t)}(即樣本 ii 屬於分量 jj 的概率)進行加權。
  • 分母 NjN_j 是這些權重的總和,用於歸一化估計值。

因此,M 步執行的是針對每個分量的加權最大似然估計,基於當前數據點對該分量的軟分配。