Skip to main content

解說 (a)

直覺 (Intuition):模糊化真相

核心密度估計 (Kernel Density Estimation, KDE) 最核心的直覺概念,就是將離散的、尖銳的資料點替換成連續平滑的「突起」(核心, kernels)。將這些平緩的突起加總起來,就能建構出底層連續分佈的估計值。

然而,這種作法天生就會引入一個副作用。想像真實的機率密度 p(x)p(x) 是一座稜角分明、充滿細節的連綿山脈,而我們的核心 k~(x)\tilde{k}(x) 就像是一把很粗的水彩筆或是一面前焦距模糊的透鏡。

  • 當你在做 p(x)k~(x)p(x) * \tilde{k}(x) (卷積, convolution) 時,你就像是正拿著這面模糊的透鏡掃過真實且銳利的地貌。
  • 山峰 (Peaks) (具有高機率的地方) 往往會被壓平 (flattened)。
  • 山谷 (Valleys) (具有零或低機率的區域) 往往會被相鄰區域蔓延過來的機率質量給填滿。

什麼導致了 KDE 的偏差 (Bias)?

一個估計量的數學偏差 (bias) 單純是指 E[估計值]真實值\mathbb{E}[\text{估計值}] - \text{真實值}。如果我們的估計量的期望值正好等同於真實值,那麼偏差就是零。

上述解答嚴謹地展示了 EX[p^(x)]=p(x)k~(x)\mathbb{E}_X[\hat{p}(x)] = p(x) * \tilde{k}(x)。因為期望值涉及與核心 k~\tilde{k} 進行卷積,我們的估計量平均下來並不會完全等於真實密度 p(x)p(x)。相反地,平均而言,KDE 自然會預測出一個稍微模糊、被糊抹過的現實版本。

結論 (Conclusion): KDE 是一個 有偏估計量 (biased estimator)。這個偏差代表了相較於真實的分佈曲線,我們預期的估計結果被「模糊化」的程度。我們的核心越寬 (例如使用更大的帶寬參數 hh),我們抹除細節的程度就越強烈,這會強烈惡化我們的偏差,但能提供一條更平滑的曲線。