詳細解釋
本問題的核心概念是將正則化的優化公式與貝葉斯統計聯繫起來。
MAP 估計
在貝葉斯估計中,我們詳細說明了:
後驗 (Posterior)∝似然 (Likelihood)×先驗 (Prior)
取負對數將乘積轉化為和:
−log(後驗)=−log(似然)−log(先驗)+C
最小化目標函數 21E+λR 本質上是在執行 MAP 估計,其中 E 來自似然,而 R 來自先驗。
- L2 正則化 (Ridge) 使用 R(θ)=∥θ∥2,這對應於 高斯 (Gaussian) 先驗。
- L1 正則化 (LASSO) 使用 R(θ)=∥θ∥1,這對應於 拉普拉斯 (Laplacian) 先驗。
為什麼會產生稀疏性?
從視覺上看,如果我們繪製似然函數的等高線(橢圓)和先驗的等高線(約束區域),解就是它們相切的地方。
- 對於 L2,約束區域 (∑θi2≤C) 是一個 圓/球體。似然橢圓通常會在曲線上的一個點與圓相切,很少恰好在軸上(即權重為 0 的地方)。
- 對於 L1,約束區域 (∑∣θi∣≤C) 是一個 菱形/正交多面體 (cross-polytope)。這個形狀在軸上有「角 (corners)」。幾何概率表明,擴大的似然橢圓很有可能首先碰到這些「角」。由於角位於軸上,其他坐標為零,從而導致稀疏解。
在數學上,∣θ∣ 的導數是 sign(θ),即 +1 或 −1。當 θ 變小時,它不會趨於 0。這種恆定的力將係數一直推向 0。而 θ2 的導數是 2θ,當 θ 變小時趨於 0,提供的力會減弱。