-
分解 (Decomposition):
我們將每個權重 θi 分解為兩個非負部分:θi=θi+−θi−,其中 θi+,θi−≥0。
通常,我們希望 θi+=max(0,θi) 和 θi−=max(0,−θi)。在這種情況下,它們之中至少有一個為零。
-
目標函數的差異:
式 (3.62) 使用 ∣θi+−θi−∣。
式 (3.63) 使用 (θi++θi−)。
由於 θi+,θi−≥0,我們知道 ∣θi+−θi−∣≤θi++θi−,等號成立 若且唯若 (if and only if) θi+ 或 θi− 中至少有一個為零(即 θi+⋅θi−=0)。
-
優化邏輯:
假設我們有一個候選解,對於某個索引 i,θi+>0 和 θi−>0 同時成立。
令 m=min(θi+,θi−)>0。
我們可以創建一個新解:
θ~i+=θi+−m
θ~i−=θi−−m
實際權重 θi 保持不變:θ~i+−θ~i−=(θi+−m)−(θi−−m)=θi+−θi−=θi。
第一項(損失項)僅取決於差值,因此不變。
然而,考慮 (3.63) 中的懲罰項:
原和為 (θi++θi−)。
新和為 (θ~i++θ~i−)=(θi+−m+θi−−m)=(θi++θi−)−2m。
因為 m>0,新的目標函數值嚴格變小!
因此,任何兩者均為正的解都不是最優的。優化器會將其中至少一個驅動為零以最小化目標函數。
-
結論:
在最優點,對於每個 i,要麼 θi+=0,要麼 θi−=0(或兩者皆為 0)。
在這種情況下,∣θi+−θi−∣=θi++θi−。
因此,最小化 (3.63) 會自動導致滿足此屬性的解,使其等價於最小化 (3.62)。