Explain ZH
KDE 平均值與偏差的解釋
當我們使用核密度估計 (KDE) 時,我們實際上是在觀察到的每一個數據點上放置一個小的「隆起」(核函數)。將這些隆起加總就得到了估計的密度函數。
逐步推導解析:
- 期望值: 我們想找出如果我們重複實驗很多次,估計曲線的「平均」形狀是什麼。
- 線性性質: 由於估計器只是放置在每個點上的核函數的平均值,因此估計器的期望值就是單個核函數期望值的平均。
- 積分: 計算以隨機數據點 為中心的單個核函數的期望值,是通過積分核函數值 並以數據點落在 處的概率 進行加權來完成的。
- 卷積結果: 這個積分 在數學上就是卷積。
這在視覺上意味著什麼?
想像真實分佈 是一個尖銳的峰值。 期望的估計分佈 就是那個尖峰與核寬度進行 卷積 的結果。 如果核是寬度為 的高斯函數,那麼期望的估計值將是被該高斯函數 模糊化 (blurred) 後的真實尖峰。
- 偏差 (Bias): 期望估計值(平滑後的 )與真實 之間的差異。
- 由於這種平滑(卷積)作用,真實密度中的尖峰會被低估(變平),而低谷會被高估(填補)。
- 這證明了對於任何有限的帶寬 ,KDE 本質上是有偏的。只有當我們使核無限窄 () 並且擁有無限數據 () 時,我們才能得到「真相」。