Skip to main content

Explain ZH

KDE 平均值與偏差的解釋

當我們使用核密度估計 (KDE) 時,我們實際上是在觀察到的每一個數據點上放置一個小的「隆起」(核函數)。將這些隆起加總就得到了估計的密度函數。

逐步推導解析:

  1. 期望值: 我們想找出如果我們重複實驗很多次,估計曲線的「平均」形狀是什麼。
  2. 線性性質: 由於估計器只是放置在每個點上的核函數的平均值,因此估計器的期望值就是單個核函數期望值的平均。
  3. 積分: 計算以隨機數據點 XX 為中心的單個核函數的期望值,是通過積分核函數值 k~(xμ)\tilde{k}(x - \mu) 並以數據點落在 μ\mu 處的概率 p(μ)p(\mu) 進行加權來完成的。
  4. 卷積結果: 這個積分 p(μ)k~(xμ)dμ\int p(\mu) \tilde{k}(x - \mu) d\mu 在數學上就是卷積。

這在視覺上意味著什麼?

想像真實分佈 p(x)p(x) 是一個尖銳的峰值。 期望的估計分佈 E[p^(x)]\mathbb{E}[\hat{p}(x)] 就是那個尖峰與核寬度進行 卷積 的結果。 如果核是寬度為 hh 的高斯函數,那麼期望的估計值將是被該高斯函數 模糊化 (blurred) 後的真實尖峰。

  • 偏差 (Bias): 期望估計值(平滑後的 p(x)p(x))與真實 p(x)p(x) 之間的差異。
  • 由於這種平滑(卷積)作用,真實密度中的尖峰會被低估(變平),而低谷會被高估(填補)。
  • 這證明了對於任何有限的帶寬 h>0h > 0,KDE 本質上是有偏的。只有當我們使核無限窄 (h0h \to 0) 並且擁有無限數據 (nn \to \infty) 時,我們才能得到「真相」。