Skip to main content

Explain ZH

詳細解釋

本問題的核心概念是將正則化的優化公式與貝葉斯統計聯繫起來。

MAP 估計

在貝葉斯估計中,我們詳細說明了: 後驗 (Posterior)似然 (Likelihood)×先驗 (Prior)\text{後驗 (Posterior)} \propto \text{似然 (Likelihood)} \times \text{先驗 (Prior)} 取負對數將乘積轉化為和: log(後驗)=log(似然)log(先驗)+C-\log(\text{後驗}) = -\log(\text{似然}) - \log(\text{先驗}) + C 最小化目標函數 12E+λR\frac{1}{2}E + \lambda R 本質上是在執行 MAP 估計,其中 EE 來自似然,而 RR 來自先驗。

  • L2 正則化 (Ridge) 使用 R(θ)=θ2R(\theta) = \|\theta\|^2,這對應於 高斯 (Gaussian) 先驗。
  • L1 正則化 (LASSO) 使用 R(θ)=θ1R(\theta) = \|\theta\|_1,這對應於 拉普拉斯 (Laplacian) 先驗。

為什麼會產生稀疏性?

從視覺上看,如果我們繪製似然函數的等高線(橢圓)和先驗的等高線(約束區域),解就是它們相切的地方。

  • 對於 L2,約束區域 (θi2C\sum \theta_i^2 \le C) 是一個 圓/球體。似然橢圓通常會在曲線上的一個點與圓相切,很少恰好在軸上(即權重為 0 的地方)。
  • 對於 L1,約束區域 (θiC\sum |\theta_i| \le C) 是一個 菱形/正交多面體 (cross-polytope)。這個形狀在軸上有「角 (corners)」。幾何概率表明,擴大的似然橢圓很有可能首先碰到這些「角」。由於角位於軸上,其他坐標為零,從而導致稀疏解。

在數學上,θ|\theta| 的導數是 sign(θ)\text{sign}(\theta),即 +1+11-1。當 θ\theta 變小時,它不會趨於 0。這種恆定的力將係數一直推向 0。而 θ2\theta^2 的導數是 2θ2\theta,當 θ\theta 變小時趨於 0,提供的力會減弱。