Explain ZH
直覺與概念 (Intuition)
這個問題優雅地橋接了統計學和機器學習中兩種截然不同的哲學:貝葉斯學派 (Bayesian) 和頻率學派 (Frequentist) 的觀點。
數學上的聯繫
在 (a) 和 (b) 部分,我們使用的是純機率。我們為權重分配了一個高斯分佈 (先驗信念) 並使用了貝氏定理。我們找到了給定資料下最可能出現的權重。
在 (c) 部分,我們展示了執行一個特定的代數最佳化程序——嶺迴歸 (Ridge Regression)——會給出完全相同的公式。
- 目標函數 (The Objective Function, 3.49):想像你想擬合一條線 (),但你希望保持權重 () 越小越好。你設定了一個懲罰函數。第一部分 () 是標準誤差 (線條偏離點的程度)。第二部分 () 是懲罰項。如果你的權重變得太大,這部分就會激增。
- 超參數 (The Hyperparameter, ):這個數字控制了兩者之間的權衡 (trade-off)。
- 如果 ,你不在乎權重的大小;你只想要完美地擬合資料。(這就是標準的最小平方法)。
- 如果 很大,懲罰會非常嚴厲,以至於模型強迫所有權重都接近零,幾乎完全忽略了資料。
神奇的連結 (The Magic Link)
最令人驚嘆的部分在這裡:嶺迴歸中的權衡參數 ,直接等價於貝葉斯框架中雜訊變異數與先驗變異數的比值 ()!
- 高雜訊 ( 很大):資料很混亂。你不應該完全相信它。在貝葉斯觀點中,你會更依賴你的先驗。在嶺迴歸中, 變得很大,這表示你對複雜模型施加重罰以避免擬合雜訊 (避免過擬合)。
- 強大先驗 ( 很小):你非常確信你的權重應該接近零。同樣地, 變得很大,加強了懲罰。
- 低雜訊 / 弱先驗: 變得非常小。你完全信任資料,並讓權重根據需要任意增長以擬合這些點。
這種等價性意義深遠。當你在神經網路或線性模型中加入 懲罰 (嶺迴歸 / 權重衰減) 時,你其實是在隱含地聲明:「我相信我尚未觀察到的權重服從零均值的高斯分佈。」