Skip to main content

Explain ZH

直覺解析 (Intuition)

在 (a) 小題中,我們純粹從幾何和代數的角度來探討最小平方法回歸 (Least-Squares Regression):找出能實質上最小化與各數據點之間平方距離的線。

而在這一題中,我們使用的是最大概似估計 (Maximum Likelihood Estimation, MLE),它採取的是機率的視角。MLE 不問「哪條線能讓距離最小?」,而是問「假設數據是由我們的模型加上一些隨機雜訊產生的,那麼什麼樣的參數能讓我們實際觀察到的數據具有最大的發生機率 (most probable)?」

兩者的連結:高斯雜訊是橋樑

為什麼這兩種截然不同的哲學會導出完全相同的數學結果呢?秘密在於我們對雜訊所做的假設:ϵN(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)

因為測量雜訊服從高斯(常態)分佈 (Gaussian Distribution),產生某個特定誤差的機率,會隨著該誤差的「平方」呈指數級下降: pexp(誤差2)p \propto \exp(- \text{誤差}^2)

當我們想要同時最大化所有數據點發生的機率(即概似)時,我們將它們的機率相乘。當你將帶有指數的數字相乘時,你實際上是在將它們的指數「相加」: exp(誤差12)×exp(誤差22)=exp((誤差12+誤差22))\exp(- \text{誤差}_1^2) \times \exp(- \text{誤差}_2^2) = \exp(- (\text{誤差}_1^2 + \text{誤差}_2^2))

為了讓整體的機率盡可能的大(這正是 MLE 的目標),我們需要讓這個指數部分盡可能地接近零。這表示我們必須最小化這些誤差的平方和,而這就讓我們直接回到了最小平方法的目標!

核心觀念 (Key Takeaway)

當影響數據的雜訊被假設為高斯分佈時,最小平方法 (Least Squares) 就是最大概似估計 (Maximum Likelihood Estimate) 的精確體現。如果你的雜訊服從其他的機率分佈(例如拉普拉斯分佈,Laplace Distribution),MLE 就會導出不同的目標函數(例如:變成最小化絕對誤差,而不是誤差平方)。