Skip to main content

Answer ZH

先決條件

  • 0-1 損失的貝葉斯決策規則 (BDR):最小化誤分類機率的最佳決策規則是選擇使後驗機率最大化的類別:g(x)=argmaxjp(y=jx)g(x)^* = \text{argmax}_j p(y=j|x)
  • 貝氏定理 (Bayes' Theorem)p(y=jx)=p(xy=j)p(y=j)p(x)p(y=j|x) = \frac{p(x|y=j)p(y=j)}{p(x)}
  • 多元高斯分佈 (Multivariate Gaussian Distribution):機率密度函數為 p(xy=j)=1(2π)d/2Σ1/2exp(12(xμj)TΣ1(xμj))p(x|y=j) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j)\right)
  • 對數似然 (Log-Likelihood):最大化一個函數等同於最大化其對數,因為對數是一個單調遞增函數。

逐步推導

  1. 從 BDR 開始: 為了最小化 0-1 損失,我們最大化後驗機率: g(x)=argmaxjp(y=jx)g(x)^* = \text{argmax}_j p(y=j|x)

  2. 應用貝氏定理p(y=jx)=p(xy=j)p(y=j)p(x)p(y=j|x) = \frac{p(x|y=j)p(y=j)}{p(x)} 由於證據 p(x)p(x) 對所有類別 jj 都是相同的,它不會影響 argmax\text{argmax} 的操作。我們可以改為最大化聯合機率: g(x)=argmaxj[p(xy=j)p(y=j)]g(x)^* = \text{argmax}_j [p(x|y=j)p(y=j)]

  3. 取對數: 為了簡化高斯分佈中的指數項,我們對目標函數取自然對數。令其為我們的判別函數 gj(x)g_j(x)gj(x)=log(p(xy=j)p(y=j))=logp(xy=j)+logp(y=j)g_j(x) = \log(p(x|y=j)p(y=j)) = \log p(x|y=j) + \log p(y=j)

  4. 代入高斯密度和先驗機率: 已知 p(xy=j)=N(xμj,Σ)p(x|y=j) = \mathcal{N}(x|\mu_j, \Sigma)p(y=j)=πjp(y=j) = \pi_jgj(x)=log(1(2π)d/2Σ1/2exp(12(xμj)TΣ1(xμj)))+logπjg_j(x) = \log \left( \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j)\right) \right) + \log \pi_j gj(x)=d2log(2π)12logΣ12(xμj)TΣ1(xμj)+logπjg_j(x) = -\frac{d}{2}\log(2\pi) - \frac{1}{2}\log|\Sigma| - \frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j) + \log \pi_j

  5. 移除與類別無關的項: 項 d2log(2π)-\frac{d}{2}\log(2\pi)12logΣ-\frac{1}{2}\log|\Sigma| 相對於類別索引 jj 是常數(因為所有類別共享相同的協方差矩陣 Σ\Sigma)。我們可以將它們從判別函數中捨去: gj(x)=12(xμj)TΣ1(xμj)+logπjg_j(x) = -\frac{1}{2}(x-\mu_j)^T\Sigma^{-1}(x-\mu_j) + \log \pi_j

  6. 展開二次項(xμj)TΣ1(xμj)=xTΣ1xxTΣ1μjμjTΣ1x+μjTΣ1μj(x-\mu_j)^T\Sigma^{-1}(x-\mu_j) = x^T\Sigma^{-1}x - x^T\Sigma^{-1}\mu_j - \mu_j^T\Sigma^{-1}x + \mu_j^T\Sigma^{-1}\mu_j 由於 Σ\Sigma 是協方差矩陣,它是對稱的,這意味著它的反矩陣 Σ1\Sigma^{-1} 也是對稱的。因此,純量 xTΣ1μjx^T\Sigma^{-1}\mu_j 等於其轉置 μjTΣ1x\mu_j^T\Sigma^{-1}x(xμj)TΣ1(xμj)=xTΣ1x2μjTΣ1x+μjTΣ1μj(x-\mu_j)^T\Sigma^{-1}(x-\mu_j) = x^T\Sigma^{-1}x - 2\mu_j^T\Sigma^{-1}x + \mu_j^T\Sigma^{-1}\mu_j

  7. 代回並簡化gj(x)=12(xTΣ1x2μjTΣ1x+μjTΣ1μj)+logπjg_j(x) = -\frac{1}{2} \left( x^T\Sigma^{-1}x - 2\mu_j^T\Sigma^{-1}x + \mu_j^T\Sigma^{-1}\mu_j \right) + \log \pi_j gj(x)=12xTΣ1x+μjTΣ1x12μjTΣ1μj+logπjg_j(x) = -\frac{1}{2}x^T\Sigma^{-1}x + \mu_j^T\Sigma^{-1}x - \frac{1}{2}\mu_j^T\Sigma^{-1}\mu_j + \log \pi_j12xTΣ1x-\frac{1}{2}x^T\Sigma^{-1}xjj 無關,所以我們也可以將其捨去。簡化後的判別函數變為: gj(x)=μjTΣ1x12μjTΣ1μj+logπjg_j(x) = \mu_j^T\Sigma^{-1}x - \frac{1}{2}\mu_j^T\Sigma^{-1}\mu_j + \log \pi_j

  8. 表示為線性函數: 我們可以將其改寫為 gj(x)=wjTx+bjg_j(x) = w_j^T x + b_j 的形式。 令 wj=Σ1μjw_j = \Sigma^{-1}\mu_j。則 wjT=(Σ1μj)T=μjT(Σ1)T=μjTΣ1w_j^T = (\Sigma^{-1}\mu_j)^T = \mu_j^T(\Sigma^{-1})^T = \mu_j^T\Sigma^{-1}。 令 bj=12μjTΣ1μj+logπjb_j = -\frac{1}{2}\mu_j^T\Sigma^{-1}\mu_j + \log \pi_j。 將這些代入我們的方程式中可得: gj(x)=wjTx+bjg_j(x) = w_j^T x + b_j 證明完畢。