Skip to main content

Explain ZH

直覺與概念 (Intuition)

這個問題優雅地橋接了統計學和機器學習中兩種截然不同的哲學:貝葉斯學派 (Bayesian)頻率學派 (Frequentist) 的觀點。

數學上的聯繫

在 (a) 和 (b) 部分,我們使用的是純機率。我們為權重分配了一個高斯分佈 (先驗信念) 並使用了貝氏定理。我們找到了給定資料下最可能出現的權重。

在 (c) 部分,我們展示了執行一個特定的代數最佳化程序——嶺迴歸 (Ridge Regression)——會給出完全相同的公式。

  1. 目標函數 (The Objective Function, 3.49):想像你想擬合一條線 (y=ΦTθy = \Phi^T \theta),但你希望保持權重 (θ\theta) 越小越好。你設定了一個懲罰函數。第一部分 (yΦTθ2\lVert y - \Phi^T \theta \rVert^2) 是標準誤差 (線條偏離點的程度)。第二部分 (λθ2\lambda \lVert \theta \rVert^2) 是懲罰項。如果你的權重變得太大,這部分就會激增。
  2. 超參數 (The Hyperparameter, λ\lambda):這個數字控制了兩者之間的權衡 (trade-off)。
    • 如果 λ=0\lambda = 0,你不在乎權重的大小;你只想要完美地擬合資料。(這就是標準的最小平方法)。
    • 如果 λ\lambda 很大,懲罰會非常嚴厲,以至於模型強迫所有權重都接近零,幾乎完全忽略了資料。

最令人驚嘆的部分在這裡:嶺迴歸中的權衡參數 λ\lambda,直接等價於貝葉斯框架中雜訊變異數與先驗變異數的比值 (σ2α\frac{\sigma^2}{\alpha})!

  • 高雜訊 (σ2\sigma^2 很大):資料很混亂。你不應該完全相信它。在貝葉斯觀點中,你會更依賴你的先驗。在嶺迴歸中,λ\lambda 變得很大,這表示你對複雜模型施加重罰以避免擬合雜訊 (避免過擬合)。
  • 強大先驗 (α\alpha 很小):你非常確信你的權重應該接近零。同樣地,λ\lambda 變得很大,加強了懲罰。
  • 低雜訊 / 弱先驗λ\lambda 變得非常小。你完全信任資料,並讓權重根據需要任意增長以擬合這些點。

這種等價性意義深遠。當你在神經網路或線性模型中加入 L2L_2 懲罰 (嶺迴歸 / 權重衰減) 時,你其實是在隱含地聲明:「我相信我尚未觀察到的權重服從零均值的高斯分佈。」