具備知識 (Prerequisites)
- 來自 (a) 的後驗分佈公式 (Posterior Distribution formulas)
- 極限與漸近行為 (Limits and Asymptotic Behavior)
逐步推導 (Step-by-Step Derivation)
由 (a) 部分的結果並代入 Γ=αI 且 Σ=σ2I:
後驗共變異數:Σ^θ=(α1I+σ21ΦΦT)−1
後驗平均數:μ^θ=σ21Σ^θΦy
讓我們分析一些極限情況:
-
情況 α→∞ (無資訊/平坦先驗, Uninformative/Flat Prior):
- 當先驗變異數趨近於無限大時,我們的先驗信念變得極度微弱 (在看到資料之前,我們對 θ 完全不確定)。
- α1→0。
- 共變異數:Σ^θ→(σ21ΦΦT)−1=σ2(ΦΦT)−1。
- 平均數:μ^θ→σ21[σ2(ΦΦT)−1]Φy=(ΦΦT)−1Φy。
- 結果:後驗平均數變成了標準的一般最小平方法 (OLS/MLE) 估計值。先驗失去了正則化 (regularizing) 的作用。
-
情況 α=0 (絕對的先驗信念, Absolute Prior Configuration):
- (從正方向取極限 α→0+)
- 精度 α1→∞。先驗分佈變成在零點的狄拉克 δ 函數 (Dirac delta function)。
- 共變異數:Σ^θ→(∞I+σ21ΦΦT)−1→0。
- 平均數:μ^θ→0(…)→0。
- 結果:資料不再起任何作用。我們絕對確信 θ=0,完全不論觀察結果如何。
-
情況 σ2→0 (無雜訊觀察, Noise-free Observations):
- 當觀察雜訊趨近於零時,我們完全信任資料。
- σ21ΦΦT 這個項會主導 α1I 項。我們可以使用伍德伯里矩陣恆等式 (Woodbury matrix identity) 或提取公因式來改寫。
- 實際上,使用 (c) 部分的形式更直觀:μ^θ=(ΦΦT+λI)−1Φy,其中 λ=ασ2。
- 如果 σ2→0,那麼 λ→0。
- 平均數:μ^θ→(ΦΦT)−1Φy (假設 ΦΦT 可逆)。模型完美地內插 (interpolate) 訓練資料。
- 共變異數:Σ^θ=(α1I+σ21ΦΦT)−1=σ2(ασ2I+ΦΦT)−1。當 σ2→0 時,Σ^θ→0⋅(ΦΦT)−1=0。
- 結果:我們對「那些能完全擬合資料的參數」變得百分之百確定(後驗不確定性為零),前提是資料真的能被完美擬合。