Skip to main content

Answer ZH

先備知識 (Prerequisites)

  • 核心密度估計 (Kernel Density Estimation, KDE)
  • 偏差與變異數權衡 (Bias-Variance Tradeoff)
  • 統計動差的性質 (Properties of Moments in Statistics)

解答說明 (Description)

透過 (a) 與 (b) 小題的推導,我們找出了幾何估計 p^(x)\hat{p}(x) 的兩個主要動差 (Moments):

  1. 估計出之分佈的平均值,完美等同於樣本資料的經驗平均值 (Empirical mean)。
  2. 估計出之分佈的共變異數 Σ^\hat{\Sigma},等於樣本的經驗共變異數 加上 HH(此為核心函數本身的內部共變異數/頻寬)。

1. 核心密度估計量 p^(x)\hat{p}(x) 的性質

這個數學上的事實具體告訴我們,核心密度估計會表現出過度平滑/擴散現象 (Over-smoothing / Dispersion)。 因為 HH 是一個半正定 (Positive semi-definite) 的共變異數矩陣,說明了 Σ^>樣本共變異數\hat{\Sigma} > \text{樣本共變異數}。所產生出來的機率分佈 p^(x)\hat{p}(x),將無可避免地比「只嚴格根據樣本點 x1,,xnx_1, \dots, x_n 獨立構成的經驗分佈」還要更加寬廣及離散。核心函數會強制將其本身的「結構性散佈範圍 (Structural spread)」注入到最終呈現出來的資料表徵之中。

2. 這與核心密度估計量偏差 (Bias) 的關聯

在密度估計中,偏差 (Bias) 衡量的是我們估計量的期望值 E[p^(x)]\mathbb{E}[\hat{p}(x)] 距離「生成資料的真正潛在分佈 p(x)p(x)」有多遠。

因為我們在變異數上附加了 HH

  • HH 很高(大頻寬 Large Bandwidth)時: 核心函數會強烈地去平滑資料。真正機率分佈中原本那鋒利的尖峰會被過度人為壓平,而深谷則會被填高。藉由強制加寬整個分佈,我們在系統上完全錯失了真實密度的局部特徵。這種結構上、系統性對於真實形狀的扭曲,正是構成巨大偏差 (Large bias) 的主因。我們非常穩定且自信地建構了一個錯誤的、過度扁平的模型。
  • HH 很低(小頻寬 Small Bandwidth)時:H0H \rightarrow 0,由於加入額外變異數的懲罰範圍跟著縮小,我們保留了局部的幾何細節(降低了偏差)。然而,這樣卻會導致密度估計對於單一資料點的擺放位置過度敏感,引發極度劇烈的震盪 (Spikiness),反而在估計量本身引發了極高的變異數 (High variance)。

因此,模型組成的共變異數中之所以會多出一個 +H+H 項,完美地描繪出了 KDE 根本性的平滑偏差 (Smoothing bias) 原理。此種偏差的強度大小,與選用核心的頻寬大小 HH 呈現出直接的正相關。