Skip to main content

Explain ZH

直觀理解 (Intuition)

現在讓我們想像著去計算所有組合起來的沙堆(也就是我們最終估計出的分佈 p^(x)\hat{p}(x))其整體的「離散程度」或變異數/共變異數 (Variance / Covariance)

總變異量定律 (Law of Total Variance) 提示我們,當我們混合了不同的分佈(如總和了多個核心函數)時,整體的離散程度源自於兩個可完美相加的完全獨立來源:

  1. 核心內部的離散程度 (HH): 每一個單獨的沙堆本身都具有寬度或離散度。這種每一個點上帶入的局部「模糊感 (Blurriness)」,是由你所挑選的核心函數其固有的共變異數 HH 所量化的。
  2. 核心之間的離散程度(樣本共變異數 Sample Covariance): 我們放置沙堆位置的中心點(即實際資料點 xix_i 的位置),它們本身也散佈在平均值 μ^\hat{\mu} 之間。這個資料集合在宏觀上的散佈程度,正巧就是標準的樣本共變異數:1n(xiμ^)(xiμ^)T\frac{1}{n} \sum (x_i - \hat{\mu})(x_i - \hat{\mu})^T

因為每一個觀測資料點都作為添加核心形狀的獨立起點,所以這兩種性質迥異的變異來源就會層層疊加。

因此,我們所建構出模型的最終變異數,剛好會等於原始資料本身就存在的變異數,加上我們使用核心作平滑化時人為添加的變異數(模糊處理)。

常見誤區 (Common Pitfalls)

初學者非常容易犯的一個錯誤是去假設「我的 KDE 模型分佈會完美地重現實體樣本資料本身的統計特性」。

但現實狀況是,決定採用「平滑化 (Smoothing)」這個動作本身(使模型不會變成只剩下一根根尖銳的柱子),就已經嚴格地強迫整體變異數必須變大。您在本質上已經將機率質量向外擴張 (Fatten) 到了原始資料點邊界之外了。