Explain ZH
直覺與概念 (Intuition)
想像你正在嘗試用一條線來擬合一些散佈的資料點。
- 最小平方法 (OLS) 代表一種完全天真的學習方式。它平等地信任所有的資料點,只是直直地穿過它們,只試圖最小化垂直距離。
- 加權最小平方法 (WLS) 稍微聰明一點。它承認:「有些測量結果比其他的更嘈雜。」它對我們非常有信心的點(在 中變異數較小)給予更多關注,而對嘈雜的離群值給予較少關注。
- Maximum A Posteriori (MAP) 估計 採用 WLS 並加上了先驗信念 (Prior Belief)。在機器學習中,具有極端參數值的完美擬合模型,往往在面對新資料時表現得很糟糕。MAP 方法的潛台詞是:「我會盡力擬合資料,但是我拒絕讓我的參數變得過度龐大。」
「橡皮筋」比喻 (The "Rubber Band" Analogy)
把參數 想像成一顆球。
- 資料(加權最小平方法的部分)就像磁鐵一樣,試圖將球拉向完美擬合訓練樣本的配置。
- 先驗 就像一條橡皮筋,把球固定在原點 (零) 的位置。
如果資料非常龐大且具壓倒性,磁鐵的吸力就會很強,球就會把橡皮筋拉得很遠。如果資料稀疏或非常嘈雜,磁鐵的吸力就很弱,橡皮筋就會把球安全地保持在靠近零的地方。
為什麼這有幫助?
- 數值穩定性 (Numerical Stability):有時候,你的資料矩陣可能沒有反矩陣(它們是奇異矩陣)。這就像是問「1 除以 0 是多少?」加上「橡皮筋」() 相當於在矩陣的對角線上增加數值,確保它永遠不會精確地等於零,因此我們總是可以順利地求出它的反矩陣。
- 泛化能力 (Generalization):如果一個模型過度關注訓練集中的雜訊,它就是在「死背」而不是在「學習」(過擬合,Overfitting)。正則化 (Regularization) 強迫模型忽略雜訊中微小的起伏,因為為適應這些雜訊而去改變參數,還不如留在原地免受橡皮筋強大拉力來得划算。