Answer ZH

先備知識 (Prerequisites)

核心密度估計 (Kernel Density Estimation, KDE)
偏差與變異數權衡 (Bias-Variance Tradeoff)
統計動差的性質 (Properties of Moments in Statistics)

解答說明 (Description)

透過 (a) 與 (b) 小題的推導，我們找出了幾何估計 $\hat{p}(x)$ 的兩個主要動差 (Moments)：

估計出之分佈的平均值，完美等同於樣本資料的經驗平均值 (Empirical mean)。
估計出之分佈的共變異數 $\hat{\Sigma}$ ，等於樣本的經驗共變異數加上 $H$ （此為核心函數本身的內部共變異數／頻寬）。

1. 核心密度估計量 $\hat{p}(x)$ 的性質

這個數學上的事實具體告訴我們，核心密度估計會表現出過度平滑／擴散現象 (Over-smoothing / Dispersion)。因為 $H$ 是一個半正定 (Positive semi-definite) 的共變異數矩陣，說明了 $\hat{\Sigma} > \text{樣本共變異數}$ 。所產生出來的機率分佈 $\hat{p}(x)$ ，將無可避免地比「只嚴格根據樣本點 $x_1, \dots, x_n$ 獨立構成的經驗分佈」還要更加寬廣及離散。核心函數會強制將其本身的「結構性散佈範圍 (Structural spread)」注入到最終呈現出來的資料表徵之中。

2. 這與核心密度估計量偏差 (Bias) 的關聯

在密度估計中，偏差 (Bias) 衡量的是我們估計量的期望值 $\mathbb{E}[\hat{p}(x)]$ 距離「生成資料的真正潛在分佈 $p(x)$ 」有多遠。

因為我們在變異數上附加了 $H$ ：

當 $H$ 很高（大頻寬 Large Bandwidth）時： 核心函數會強烈地去平滑資料。真正機率分佈中原本那鋒利的尖峰會被過度人為壓平，而深谷則會被填高。藉由強制加寬整個分佈，我們在系統上完全錯失了真實密度的局部特徵。這種結構上、系統性對於真實形狀的扭曲，正是構成巨大偏差 (Large bias) 的主因。我們非常穩定且自信地建構了一個錯誤的、過度扁平的模型。
當 $H$ 很低（小頻寬 Small Bandwidth）時： 當 $H \rightarrow 0$ ，由於加入額外變異數的懲罰範圍跟著縮小，我們保留了局部的幾何細節（降低了偏差）。然而，這樣卻會導致密度估計對於單一資料點的擺放位置過度敏感，引發極度劇烈的震盪 (Spikiness)，反而在估計量本身引發了極高的變異數 (High variance)。

因此，模型組成的共變異數中之所以會多出一個 $+H$ 項，完美地描繪出了 KDE 根本性的平滑偏差 (Smoothing bias) 原理。此種偏差的強度大小，與選用核心的頻寬大小 $H$ 呈現出直接的正相關。

先備知識 (Prerequisites)​

解答說明 (Description)​

1. 核心密度估計量 p^(x)\hat{p}(x)p^​(x) 的性質​

2. 這與核心密度估計量偏差 (Bias) 的關聯​

先備知識 (Prerequisites)

解答說明 (Description)

1. 核心密度估計量 $\hat{p}(x)$ 的性質

2. 這與核心密度估計量偏差 (Bias) 的關聯