-
定義機率模型 (Probability Model)
已知 yi=ϕ(xi)Tθ+ϵi,其中 ϵi∼N(0,σ2)。
因為對於給定的 xi 和 θ,ϕ(xi)Tθ 是一個決定性 (Deterministic) 的數值,所以 yi 的分佈是一個以 ϕ(xi)Tθ 為中心的高斯分佈:
p(yi∣xi,θ)=2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2)
-
寫下概似函數 (Likelihood Function)
因為樣本 D={(xi,yi)}i=1n 是獨立同分布的 (i.i.d.),所有 n 個觀察值的聯合概似 (Joint Likelihood) 即為個別機率的乘積:
L(θ)=p(y1,…,yn∣x1,…,xn,θ)=i=1∏np(yi∣xi,θ)=i=1∏n2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2)
-
計算對數概似函數 (Log-Likelihood Function)
為了找到最大值,在數學上最大化概似函數的自然對數 lnL(θ)(通常記為 ℓ(θ))會簡單得多。對數是一個單調遞增函數 (Monotonically Increasing Function),所以最大化 ℓ(θ) 就等同於最大化 L(θ)。
ℓ(θ)=ln(i=1∏n2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2))=i=1∑n(ln[2πσ21]−2σ2(yi−ϕ(xi)Tθ)2)=−2nln(2πσ2)−2σ21i=1∑n(yi−ϕ(xi)Tθ)2
-
證明與最小平方法的等價性 (Show Equivalence to Least Squares)
我們的目標是找到能最大化 ℓ(θ) 的 θ。
請注意,第一項 −2nln(2πσ2) 對於 θ 而言是常數,且係數 2σ21 是正的常數。
因此,最大化這個負數的項就完全等同於最小化後面正數的總和 (Summation):
argθmaxℓ(θ)=argθmini=1∑n(yi−ϕ(xi)Tθ)2
這個總和正是 (a) 小題中的誤差平方和 (Sum-Squared-Error) 目標函數 J(θ):
i=1∑n(yi−ϕ(xi)Tθ)2=∥y−ΦTθ∥2
-
結論 (Conclusion)
既然這兩個最佳化問題 (Optimization Problem) 是一模一樣的,那麼最大概似估計值 (ML estimate) θ^ML 必然等價於最小平方法估計值 (Least Squares estimate) θ^LS:
θ^ML=(ΦΦT)−1Φy