Skip to main content

Answer ZH

先決條件

  • 超平面方程式 (Hyperplane Equation):從 (b) 部分可知,決策邊界為 wTx+b=0w^T x + b = 0
  • 馬氏距離 (Mahalanobis Distance):兩個向量 uuvv 之間關於協方差矩陣 Σ\Sigma 的平方馬氏距離定義為 uvΣ2=(uv)TΣ1(uv)\|u - v\|_\Sigma^2 = (u - v)^T \Sigma^{-1} (u - v)
  • 向量轉置性質 (Vector Transpose Properties):對於由向量乘積 uTMvu^T M v 產生的純量值 cc,其轉置等於其自身:c=cT=vTMTuc = c^T = v^T M^T u。如果 MM 是對稱的(如 Σ1\Sigma^{-1}),則 uTMv=vTMuu^T M v = v^T M u

逐步推導

  1. 目標形式: 我們想將超平面方程式 wTx+b=0w^T x + b = 0 改寫為 wT(xx0)=0w^T(x - x_0) = 0 的形式。 展開目標形式可得: wTxwTx0=0w^T x - w^T x_0 = 0 將此與 wTx+b=0w^T x + b = 0 進行比較,我們可以看出必須滿足以下條件: wTx0=bw^T x_0 = -b

  2. 代入已知量: 從 (b) 部分,我們有: w=Σ1(μiμj)w = \Sigma^{-1}(\mu_i - \mu_j) b=12(μi+μj)TΣ1(μiμj)logπiπj-b = \frac{1}{2}(\mu_i + \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j) - \log \frac{\pi_i}{\pi_j} 題目給出了 x0x_0 的建議表達式: x0=μi+μj2(μiμj)μiμjΣ2logπiπjx_0 = \frac{\mu_i + \mu_j}{2} - \frac{(\mu_i - \mu_j)}{\|\mu_i - \mu_j\|_\Sigma^2} \log \frac{\pi_i}{\pi_j}

  3. 計算 wTx0w^T x_0: 讓我們使用給定的定義計算 wTx0w^T x_0,並證明它等於 b-bwTx0=(Σ1(μiμj))T[μi+μj2(μiμj)μiμjΣ2logπiπj]w^T x_0 = \left( \Sigma^{-1}(\mu_i - \mu_j) \right)^T \left[ \frac{\mu_i + \mu_j}{2} - \frac{(\mu_i - \mu_j)}{\|\mu_i - \mu_j\|_\Sigma^2} \log \frac{\pi_i}{\pi_j} \right] 由於 Σ1\Sigma^{-1} 是對稱的,(Σ1(μiμj))T=(μiμj)T(Σ1)T=(μiμj)TΣ1(\Sigma^{-1}(\mu_i - \mu_j))^T = (\mu_i - \mu_j)^T (\Sigma^{-1})^T = (\mu_i - \mu_j)^T \Sigma^{-1}wTx0=(μiμj)TΣ1[μi+μj2(μiμj)μiμjΣ2logπiπj]w^T x_0 = (\mu_i - \mu_j)^T \Sigma^{-1} \left[ \frac{\mu_i + \mu_j}{2} - \frac{(\mu_i - \mu_j)}{\|\mu_i - \mu_j\|_\Sigma^2} \log \frac{\pi_i}{\pi_j} \right]

  4. 展開各項: 將 (μiμj)TΣ1(\mu_i - \mu_j)^T \Sigma^{-1} 乘入括號中: wTx0=12(μiμj)TΣ1(μi+μj)(μiμj)TΣ1(μiμj)μiμjΣ2logπiπjw^T x_0 = \frac{1}{2} (\mu_i - \mu_j)^T \Sigma^{-1} (\mu_i + \mu_j) - \frac{(\mu_i - \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)}{\|\mu_i - \mu_j\|_\Sigma^2} \log \frac{\pi_i}{\pi_j}

  5. 簡化表達式

    • 第一項:請注意 (μiμj)TΣ1(μi+μj)(\mu_i - \mu_j)^T \Sigma^{-1} (\mu_i + \mu_j) 是一個純量。它的轉置是 (μi+μj)T(Σ1)T(μiμj)=(μi+μj)TΣ1(μiμj)(\mu_i + \mu_j)^T (\Sigma^{-1})^T (\mu_i - \mu_j) = (\mu_i + \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)。因為純量等於其轉置,我們可以將第一項改寫為 12(μi+μj)TΣ1(μiμj)\frac{1}{2} (\mu_i + \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j)
    • 第二項:根據定義,分子 (μiμj)TΣ1(μiμj)(\mu_i - \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j) 正是平方馬氏距離 μiμjΣ2\|\mu_i - \mu_j\|_\Sigma^2。因此,該分數約分為 1。

    將這些簡化結果代回: wTx0=12(μi+μj)TΣ1(μiμj)logπiπjw^T x_0 = \frac{1}{2} (\mu_i + \mu_j)^T \Sigma^{-1} (\mu_i - \mu_j) - \log \frac{\pi_i}{\pi_j}

  6. 結論: 我們已經證明了 wTx0=bw^T x_0 = -b。因此,方程式 wTx+b=0w^T x + b = 0 完全等價於 wTxwTx0=0w^T x - w^T x_0 = 0,即 wT(xx0)=0w^T(x - x_0) = 0

幾何意義與解釋

  • ww 的意義:向量 w=Σ1(μiμj)w = \Sigma^{-1}(\mu_i - \mu_j) 是決策超平面的法向量 (normal vector)。它決定了邊界的方向(傾斜度)。它大致指向從類別 jj 的均值到類別 ii 的均值的方向,但被反協方差矩陣 Σ1\Sigma^{-1} 扭曲,以考慮數據分佈的形狀和擴散。
  • x0x_0 的意義:點 x0x_0 是一個精確位於決策超平面上的特定點(因為 wT(x0x0)=0w^T(x_0 - x_0) = 0)。它充當邊界的錨點 (anchor point) 或原點。
  • 先驗機率 {πi,πj}\{\pi_i, \pi_j\}x0x_0 的影響x0x_0 的公式由兩部分組成:中點 μi+μj2\frac{\mu_i + \mu_j}{2} 和一個偏移項。
    • 如果兩個類別的機率相等(πi=πj\pi_i = \pi_j),則 log(πi/πj)=log(1)=0\log(\pi_i/\pi_j) = \log(1) = 0。偏移項消失,x0x_0 正好位於兩個類別均值的正中間。
    • 如果類別 ii 的機率較大(πi>πj\pi_i > \pi_j),則 log(πi/πj)>0\log(\pi_i/\pi_j) > 0。偏移項減去了一個從 μj\mu_j 指向 μi\mu_i 的向量。這會將錨點 x0x_0 推離 μi\mu_i推向 μj\mu_j。在幾何上,這會將整個決策邊界向機率較小的類別 jj 移動,從而擴大了分配給機率較大的類別 ii 的決策區域。