Explain ZH
直觀理解 (Intuition)
從 (b) 小題得出的結論——即模型的變異數精準地等於「原始資料的變異數加上 」——針對核心方法 (Kernel methods) 揭示了一個深刻的現狀。
這告訴我們,與未處理的原始資料相比,核心密度估計 (Kernel Density Estimation, KDE) 會嚴格地大幅增加 (Strictly inflates) 您模型化後分佈的變異數。更改核心頻寬的大小 (即改變 ),在某種意義上就等同於在影像編輯軟體裡去拉動「模糊 (Blur)」滑桿。
與偏差 (Bias) 的聯繫
在設計統計估計量 時,我們不斷地在兩條戰線上交火:變異數 Variance(資料集隨機性引起的不穩定)和 偏差 Bias(系統性的不準確)。
- 把「模糊」拉高(大的 ): 我們會獲得一條滑順、穩定、極具美感的曲線。它具有極低的變異數(如果我們重新抽樣不同的資料點,這條曲線依然不會有太大改變)。然而,因為我們藉由強加 而粗暴地增寬了整個分佈,讓這條曲線再也無法精準地貼合真實現象本身的峰谷。又因為我們系統性地強迫模型變得極為平坦不反常,我們帶入了極為龐大的偏差 (Bias)(即我們所預期的那條平滑曲線與極度尖銳的現實狀況之間的差距誤差)。
- 把「模糊」調降(小的 ): 我們能夠非常忠實且不留情面地、在各資料點落腳處塗滿機率質量,並且幾乎消除掉來自於 的散佈影響。我們系統上的偏差降到了逼近零。不過你最後得到的曲線,看起來將會是一片混亂的、如同布滿銳利尖針般的天際線。這表示這模型只是一味地在「死背」該資料集合,而非將其歸納統整(這意味著它具備了突破天際的超高變異數)。
共變異數中多出來的 這一項,很直白地告訴了我們一句話:「這就是你想要獲得一條平滑曲線所需要支付的代價。」 我們犧牲掉能夠精準預測極限局部鋒利細節的準確能力(偏差),這就是為換取一條連續且具有全域穩定性的機率密度曲線所做的交易。