-
似然項 (Likelihood Term):
最小化式中的第一項是 21∥y−ΦTθ∥2。這對應於假設目標值是由高斯雜訊生成的情況下,數據的負對數似然:yi=ϕ(xi)Tθ+ϵi,其中 ϵi∼N(0,σ2)。
具體來說,p(y∣X,θ)∝exp(−2σ21∥y−ΦTθ∥2),取負對數後得到該項。
-
先驗項 (Prior Term):
第二項是 λ∥θ∥1=λ∑i∣θi∣。我們希望這對應於負對數先驗:−logp(θ)。
因此,logp(θ)∝−λ∑i∣θi∣。
這可以分離為每個權重的獨立先驗:p(θ)=∏ip(θi),其中 logp(θi)∝−λ∣θi∣。
這意味著 p(θi)∝exp(−λ∣θi∣)。
-
識別分佈:
分佈 p(θi)∝exp(−λ∣θi∣) 是中心在 0 的 拉普拉斯分佈 (Laplace Distribution)(或雙指數分佈)。
因此,LASSO 假設權重服從 拉普拉斯先驗 (Laplacian Prior)。
-
繪圖比較:
- 高斯先驗 (L2 正則化): p(θi)∝exp(−αθi2)。這是一個鐘形曲線,在峰值 0 處是平滑的。
- 拉普拉斯先驗 (L1 正則化): p(θi)∝exp(−λ∣θi∣)。這在 0 處有一個尖峰。
高斯分佈在 0 附近是平坦的,這意味著它對 0 和很小的數值(如 0.001)之間的區別不大。
拉普拉斯分佈在 0 處很尖銳,意味著與小的非零值相比,概率密度更集中在 0 這一點。
-
稀疏性的解釋:
因為拉普拉斯先驗在零點有一個尖峰(導數不連續),後驗概率的模式 (mode) 更有可能恰好落在零點。
在對數域中,懲罰項 ∣θi∣ 即使在 θi→0 時也具有恆定的梯度 ±λ。這種恆定的「拉力」可以迫使最佳權重恰好為零。
相比之下,平方懲罰 θi2 具有梯度 2θi,當 θi→0 時梯度也消失。隨著權重變小,向零的拉力變得微不足道,因此它很少精確地穩定在零。