-
從 BDR 開始:
為了最小化 0-1 損失,我們最大化後驗機率:
g(x)∗=argmaxjp(y=j∣x)
-
應用貝氏定理:
p(y=j∣x)=p(x)p(x∣y=j)p(y=j)
由於證據 p(x) 對所有類別 j 都是相同的,它不會影響 argmax 的操作。我們可以改為最大化聯合機率:
g(x)∗=argmaxj[p(x∣y=j)p(y=j)]
-
取對數:
為了簡化高斯分佈中的指數項,我們對目標函數取自然對數。令其為我們的判別函數 gj(x):
gj(x)=log(p(x∣y=j)p(y=j))=logp(x∣y=j)+logp(y=j)
-
代入高斯密度和先驗機率:
已知 p(x∣y=j)=N(x∣μj,Σ) 且 p(y=j)=πj:
gj(x)=log((2π)d/2∣Σ∣1/21exp(−21(x−μj)TΣ−1(x−μj)))+logπj
gj(x)=−2dlog(2π)−21log∣Σ∣−21(x−μj)TΣ−1(x−μj)+logπj
-
移除與類別無關的項:
項 −2dlog(2π) 和 −21log∣Σ∣ 相對於類別索引 j 是常數(因為所有類別共享相同的協方差矩陣 Σ)。我們可以將它們從判別函數中捨去:
gj(x)=−21(x−μj)TΣ−1(x−μj)+logπj
-
展開二次項:
(x−μj)TΣ−1(x−μj)=xTΣ−1x−xTΣ−1μj−μjTΣ−1x+μjTΣ−1μj
由於 Σ 是協方差矩陣,它是對稱的,這意味著它的反矩陣 Σ−1 也是對稱的。因此,純量 xTΣ−1μj 等於其轉置 μjTΣ−1x。
(x−μj)TΣ−1(x−μj)=xTΣ−1x−2μjTΣ−1x+μjTΣ−1μj
-
代回並簡化:
gj(x)=−21(xTΣ−1x−2μjTΣ−1x+μjTΣ−1μj)+logπj
gj(x)=−21xTΣ−1x+μjTΣ−1x−21μjTΣ−1μj+logπj
項 −21xTΣ−1x 與 j 無關,所以我們也可以將其捨去。簡化後的判別函數變為:
gj(x)=μjTΣ−1x−21μjTΣ−1μj+logπj
-
表示為線性函數:
我們可以將其改寫為 gj(x)=wjTx+bj 的形式。
令 wj=Σ−1μj。則 wjT=(Σ−1μj)T=μjT(Σ−1)T=μjTΣ−1。
令 bj=−21μjTΣ−1μj+logπj。
將這些代入我們的方程式中可得:
gj(x)=wjTx+bj
證明完畢。