Skip to main content

Answer ZH

預備知識

  • 核密度估計 (KDE): KDE 定義為: p^(x)=1ni=1n1hdk(xxih)\hat{p}(x) = \frac{1}{n} \sum_{i=1}^n \frac{1}{h^d} k\left(\frac{x - x_i}{h}\right)k~(u)=1hdk(u/h)\tilde{k}(u) = \frac{1}{h^d} k(u/h),則 p^(x)=1ni=1nk~(xxi)\hat{p}(x) = \frac{1}{n} \sum_{i=1}^n \tilde{k}(x - x_i)

  • 和的期望: E[Yi]=E[Yi]\mathbb{E}[\sum Y_i] = \sum \mathbb{E}[Y_i]

  • 卷積: (fg)(x)=f(μ)g(xμ)dμ(f * g)(x) = \int f(\mu) g(x - \mu) d\mu

逐步解答

  1. 寫出估計器的期望值: 由於 xix_i 是來自 p(x)p(x) 的獨立同分佈 (i.i.d.) 樣本,且期望值是線性的:

    EX[p^(x)]=E[1ni=1nk~(xxi)]=1ni=1nE[k~(xxi)]\begin{aligned} \mathbb{E}_X [\hat{p}(x)] &= \mathbb{E} \left[ \frac{1}{n} \sum_{i=1}^n \tilde{k}(x - x_i) \right] \\ &= \frac{1}{n} \sum_{i=1}^n \mathbb{E} [\tilde{k}(x - x_i)] \end{aligned}
  2. 利用同分佈簡化: 由於所有 xix_i 服從相同的分佈 p(x)p(x),因此 E[k~(xxi)]\mathbb{E} [\tilde{k}(x - x_i)] 對所有 ii 都是相同的。

    EX[p^(x)]=E[k~(xx1)]\mathbb{E}_X [\hat{p}(x)] = \mathbb{E} [\tilde{k}(x - x_1)]
  3. 計算期望值: 根據連續隨機變量 x1p(μ)x_1 \sim p(\mu) 的期望值定義:

    E[k~(xx1)]=k~(xμ)p(μ)dμ\mathbb{E} [\tilde{k}(x - x_1)] = \int \tilde{k}(x - \mu) p(\mu) d\mu
  4. 關聯到卷積: 積分 p(μ)k~(xμ)dμ\int p(\mu) \tilde{k}(x - \mu) d\mu 正是 ppk~\tilde{k} 之間卷積的定義,記為 p(x)k~(x)p(x) * \tilde{k}(x)

    EX[p^(x)]=p(x)k~(x)\mathbb{E}_X [\hat{p}(x)] = p(x) * \tilde{k}(x)
  5. 偏差的解釋: KDE 的期望值不是真實密度 p(x)p(x),而是真實密度與核函數的卷積(平滑化)。 Bias[p^(x)]=E[p^(x)]p(x)=(pk~)(x)p(x)\text{Bias}[\hat{p}(x)] = \mathbb{E}[\hat{p}(x)] - p(x) = (p * \tilde{k})(x) - p(x) 這意味著 KDE 是一個 有偏 (biased) 估計器。卷積運算會「塗抹」或平滑 p(x)p(x) 的概率質量,通常會降低峰值並填補低谷。偏差取決於帶寬 hh;當 h0h \to 0 時,核函數趨近於狄拉克 δ\delta 函數,偏差趨近於 0(漸近無偏)。