必備知識
- 機率密度函數 (Probability Density Function, PDF):
- 高斯分佈 (Gaussian distribution):p(x)=2πσ21exp(−2σ2(x−μ)2)。
- 對數概似 (Log-Likelihood):
- 對數性質:ln(ab)=lna+lnb,ln(ex)=x。
- 最佳化 (Optimization):
- 最大化一個函數等同於最大化其對數(因為對數是單調遞增函數)。
逐步解答
1. 概似函數 (The Likelihood Function)
我們觀察到的每一個 yi=ϕ(xi)Tθ+ϵi,其中 ϵi∼N(0,σ2)。
這意味著給定 xi 和 θ,yi 服從平均值 μi=ϕ(xi)Tθ 且變異數 σ2 的高斯分佈:
p(yi∣xi,θ)=2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2)
由於樣本是獨立同分佈 (i.i.d) 的,整個資料集的概似性是個別機率的乘積:
L(θ)=p(D∣θ)=i=1∏np(yi∣xi,θ)
L(θ)=i=1∏n2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2)
2. 對數概似函數 (The Log-Likelihood Function)
最大化對數概似 ℓ(θ)=lnL(θ) 比較容易,因為它將乘積轉化為求和。
ℓ(θ)=ln(i=1∏n2πσ21exp(−2σ2(yi−ϕ(xi)Tθ)2))=i=1∑n(ln2πσ21+lnexp(−2σ2(yi−ϕ(xi)Tθ)2))=i=1∑n(−21ln(2πσ2)−2σ2(yi−ϕ(xi)Tθ)2)
簡化後:
ℓ(θ)=−2nln(2πσ2)−2σ21i=1∑n(yi−ϕ(xi)Tθ)2
3. 最大化 (Maximization)
為了找出 ML 估計值 θ^ML,我們對 θ 最大化 ℓ(θ)。
注意第一項 −2nln(2πσ2) 對 θ 而言是常數,可以忽略。
最大化剩餘項等同於最大化:
−2σ21i=1∑n(yi−ϕ(xi)Tθ)2
由於 2σ21>0,最大化這個負數等同於最小化求和符號內的正數:
θ^ML=argθmini=1∑n(yi−ϕ(xi)Tθ)2
這個目標函數正是 (a) 部分中的平方誤差和 (Sum-Squared-Error)。
因此,在高斯雜訊的假設下,最小化平方誤差和等同於最大化概似性。其解是相同的:
θ^ML=(ΦΦT)−1Φy