Explain ZH

詳細解釋

本問題的核心概念是將正則化的優化公式與貝葉斯統計聯繫起來。

MAP 估計

在貝葉斯估計中，我們詳細說明了： $\text{後驗 (Posterior)} \propto \text{似然 (Likelihood)} \times \text{先驗 (Prior)}$ 取負對數將乘積轉化為和： $-\log(\text{後驗}) = -\log(\text{似然}) - \log(\text{先驗}) + C$ 最小化目標函數 $\frac{1}{2}E + \lambda R$ 本質上是在執行 MAP 估計，其中 $E$ 來自似然，而 $R$ 來自先驗。

L2 正則化 (Ridge) 使用 $R(\theta) = \|\theta\|^2$ ，這對應於 高斯 (Gaussian) 先驗。
L1 正則化 (LASSO) 使用 $R(\theta) = \|\theta\|_1$ ，這對應於 拉普拉斯 (Laplacian) 先驗。

為什麼會產生稀疏性？

從視覺上看，如果我們繪製似然函數的等高線（橢圓）和先驗的等高線（約束區域），解就是它們相切的地方。

對於 L2，約束區域 ( $\sum \theta_i^2 \le C$ ) 是一個 圓/球體。似然橢圓通常會在曲線上的一個點與圓相切，很少恰好在軸上（即權重為 0 的地方）。
對於 L1，約束區域 ( $\sum |\theta_i| \le C$ ) 是一個 菱形/正交多面體 (cross-polytope)。這個形狀在軸上有「角 (corners)」。幾何概率表明，擴大的似然橢圓很有可能首先碰到這些「角」。由於角位於軸上，其他坐標為零，從而導致稀疏解。

在數學上， $|\theta|$ 的導數是 $\text{sign}(\theta)$ ，即 $+1$ 或 $-1$ 。當 $\theta$ 變小時，它不會趨於 0。這種恆定的力將係數一直推向 0。而 $\theta^2$ 的導數是 $2\theta$ ，當 $\theta$ 變小時趨於 0，提供的力會減弱。

詳細解釋​

MAP 估計​

為什麼會產生稀疏性？​

詳細解釋

MAP 估計

為什麼會產生稀疏性？