LASSO 背後的直覺 (Intuition Behind LASSO)
為什麼 L1 正則化 (LASSO) 傾向於讓權重完全為零,而 L2 正則化 (Ridge) 只是讓它們變小?
秘密在於,早在演算法看到資料之前,這些方法對於權重「應該」如何分佈的潛在假設不同。這種「事前信念 (Prior Belief)」對學習過程起到了類似引力的作用。
先驗的形狀 (The Shape of the Priors)
想像一個代表先驗機率的地形圖。
- 脊迴歸 (Ridge Regression, L2): 假設權重服從 高斯(常態)分佈 (Gaussian distribution)。這個分佈看起來像一個平滑的山丘。在最高點(零)附近,它是相對平坦的。它告訴模型:「接近零很好,但完全是零並沒有比 0.001 好多少。」
- LASSO (L1): 假設權重服從 拉普拉斯分佈 (Laplace distribution)。這個分佈看起來像一座陡峭的山,在零的位置有一個非常尖銳的峰值。它在對數尺度下線性下降,形成一個尖銳的突刺。它告訴模型:「除非資料給你一個非常有說服力的理由,否則你應該完全是 0。」
最佳化的幾何觀點 (The Optimization Perspective - Geometric View)
在視覺上,我們可以將這些模型的最佳化過程想像成試圖擴大資料誤差的等高線圖,直到它接觸到代表我們先驗的「幾何限制區域」。
- L2 正則化將權重限制在一個 圓形 (Circle) 區域內(或更高維度的球體)。誤差等高線通常會在圓形邊緣(非座標軸的地方)與之相切。這意味著兩個權重都會很小,但不會是零。
- L1 正則化將權重限制在一個 菱形 (Diamond) 區域內。誤差等高線非常有機會碰到菱形尖銳的頂點。因為這些頂點剛好落在座標軸上,所以一個或多個權重就會完全變成零!
graph LR
subgraph 正則化幾何 (Regularization Geometry)
A[L2 Ridge: 圓形限制] --> B[接觸邊緣: 權重較小但非零]
C[L1 LASSO: 菱形限制] --> D[接觸頂點: 權重完全為 0]
end
透過拉普拉斯先驗對微小的非零權重施加嚴厲的懲罰,並獎勵嚴格的零,LASSO 成為一種自然的 特徵選擇 (Feature Selection) 工具——它透過將旋鈕完全關閉,有效地忽略了無關緊要的輸入。