Skip to main content

Explain ZH

直覺解析 (Intuition)

最小平方法回歸 (Least-Squares Regression) 的核心思想是畫出一條線(或本題中的多項式曲線),使其盡可能地貼近我們所有的數據點。當我們衡量「接近程度」時,我們看的是每個數據點和曲線之間的垂直距離。最小平方法試圖將這些垂直距離的平方和 (Sum of Squares) 最小化。

為什麼要用「平方」?

  1. 永遠為正值:透過將誤差平方,負誤差(位於曲線下方的點)和正誤差(位於曲線上方的點)就不會互相抵消。
  2. 對大誤差施加懲罰:平方會給予較大的極端值 (Outliers) 更重的權重,促使曲線盡量避免離任何單一資料點太遠。
  3. 數學上的便利性:二次函數會形成一個平滑、碗狀的形狀(即凸拋物線,Convex Parabola)。它具有單一且唯一的最低點(全域最小值,Global Minimum)。這意味著我們可以使用基本的微積分(將導數設為零)來精確地找到這個最低點。

矩陣表示法 (Matrix Formulation)

與其寫出像 i=1n(yi(θ0+θ1xi+))2\sum_{i=1}^n (y_i - (\theta_0 + \theta_1 x_i + \cdots))^2 這樣冗長的求和公式,不如將所有參數和變數都打包進矩陣中:

  • yy 是一個包含了我們所有實際觀察值的行向量。
  • ΦTθ\Phi^T \theta 會同時計算出所有數據點的預測值。矩陣 Φ\Phi(通常稱為設計矩陣 (Design Matrix))單純用來存放所有的多項式特徵,例如 xxx2x^2 等等。

將誤差平方和自然且漂亮地轉化為向量的平方長度(即 L2L_2 範數):yΦTθ2\| y - \Phi^T \theta \|^2

解決方案:θ^LS=(ΦΦT)1Φy\hat{\theta}_{LS} = (\Phi \Phi^T)^{-1} \Phi y

這個推導出的公式被稱為正規方程式 (Normal Equation)。它提供了一個直接且精確的封閉型 (Closed-form) 數學解,讓我們可以直接算出最適合的參數 θ\theta,而不需要用猜的或透過微調慢慢尋找。