Answer ZH
先備知識 (Prerequisites)
- 核心密度估計 (Kernel Density Estimation, KDE)
- 偏差與變異數權衡 (Bias-Variance Tradeoff)
- 統計動差的性質 (Properties of Moments in Statistics)
解答說明 (Description)
透過 (a) 與 (b) 小題的推導,我們找出了幾何估計 的兩個主要動差 (Moments):
- 估計出之分佈的平均值,完美等同於樣本資料的經驗平均值 (Empirical mean)。
- 估計出之分佈的共變異數 ,等於樣本的經驗共變異數 加上 (此為核心函數本身的內部共變異數/頻寬)。
1. 核心密度估計量 的性質
這個數學上的事實具體告訴我們,核心密度估計會表現出過度平滑/擴散現象 (Over-smoothing / Dispersion)。 因為 是一個半正定 (Positive semi-definite) 的共變異數矩陣,說明了 。所產生出來的機率分佈 ,將無可避免地比「只嚴格根據樣本點 獨立構成的經驗分佈」還要更加寬廣及離散。核心函數會強制將其本身的「結構性散佈範圍 (Structural spread)」注入到最終呈現出來的資料表徵之中。
2. 這與核心密度估計量偏差 (Bias) 的關聯
在密度估計中,偏差 (Bias) 衡量的是我們估計量的期望值 距離「生成資料的真正潛在分佈 」有多遠。
因為我們在變異數上附加了 :
- 當 很高(大頻寬 Large Bandwidth)時: 核心函數會強烈地去平滑資料。真正機率分佈中原本那鋒利的尖峰會被過度人為壓平,而深谷則會被填高。藉由強制加寬整個分佈,我們在系統上完全錯失了真實密度的局部特徵。這種結構上、系統性對於真實形狀的扭曲,正是構成巨大偏差 (Large bias) 的主因。我們非常穩定且自信地建構了一個錯誤的、過度扁平的模型。
- 當 很低(小頻寬 Small Bandwidth)時: 當 ,由於加入額外變異數的懲罰範圍跟著縮小,我們保留了局部的幾何細節(降低了偏差)。然而,這樣卻會導致密度估計對於單一資料點的擺放位置過度敏感,引發極度劇烈的震盪 (Spikiness),反而在估計量本身引發了極高的變異數 (High variance)。
因此,模型組成的共變異數中之所以會多出一個 項,完美地描繪出了 KDE 根本性的平滑偏差 (Smoothing bias) 原理。此種偏差的強度大小,與選用核心的頻寬大小 呈現出直接的正相關。