Answer ZH
逐步解答
-
從 (b) 推導出的 性質: 結果 (其中 是樣本共變異數)告訴我們,核密度估計值的變異數總是比潛在的樣本資料大。KDE 會「過度平滑」或擴散資料。額外擴散的量完全由頻寬矩陣 決定。
-
與偏差 (Bias) 的關係: 密度估計中的偏差通常指 (其中期望值是對資料集取的)。 然而,這個問題可能指的是變異數估計中的「偏差」或平滑偏差。 由於變異數被 膨脹了,估計值「偏向」於比真實分佈更平坦且更寬(假設樣本共變異數是真實共變異數的良好估計)。
具體來說,如果真實分佈 的共變異數為 ,且 ,則 。
- 如果 很大(大頻寬),變異數會遠大於真實變異數(高偏差,估計量本身的變異數低)。
- 如果 很小,我們會接近樣本變異數(低偏差,估計量的變異數高)。
項 代表為了獲得連續密度函數而引入的平滑偏差。這種平滑化降低了估計密度函數值的變異,但代價是使分佈的結構(動差)產生偏差,特別是膨脹了二階動差。
在平均數估計量的情境下,它是不偏的(如 (a) 部分所示)。 在共變異數的情境下,它會有 的向上偏差。