解說 (a)
直覺 (Intuition):模糊化真相
核心密度估計 (Kernel Density Estimation, KDE) 最核心的直覺概念,就是將離散的、尖銳的資料點替換成連續平滑的「突起」(核心, kernels)。將這些平緩的突起加總起來,就能建構出底層連續分佈的估計值。
然而,這種作法天生就會引入一個副作用。想像真實的機率密度 是一座稜角分明、充滿細節的連綿山脈,而我們的核心 就像是一把很粗的水彩筆或是一面前焦距模糊的透鏡。
- 當你在做 (卷積, convolution) 時,你就像是正拿著這面模糊的透鏡掃過真實且銳利的地貌。
- 山峰 (Peaks) (具有高機率的地方) 往往會被壓平 (flattened)。
- 山谷 (Valleys) (具有零或低機率的區域) 往往會被相鄰區域蔓延過來的機率質量給填滿。
什麼導致了 KDE 的偏差 (Bias)?
一個估計量的數學偏差 (bias) 單純是指 。如果我們的估計量的期望值正好等同於真實值,那麼偏差就是零。
上述解答嚴謹地展示了 。因為期望值涉及與核心 進行卷積,我們的估計量平均下來並不會完全等於真實密度 。相反地,平均而言,KDE 自然會預測出一個稍微模糊、被糊抹過的現實版本。
結論 (Conclusion): KDE 是一個 有偏估計量 (biased estimator)。這個偏差代表了相較於真實的分佈曲線,我們預期的估計結果被「模糊化」的程度。我們的核心越寬 (例如使用更大的帶寬參數 ),我們抹除細節的程度就越強烈,這會強烈惡化我們的偏差,但能提供一條更平滑的曲線。