Explain ZH

現在讓我們想像著去計算所有組合起來的沙堆（也就是我們最終估計出的分佈 $\hat{p}(x)$ ）其整體的「離散程度」或變異數／共變異數 (Variance / Covariance)。

總變異量定律 (Law of Total Variance) 提示我們，當我們混合了不同的分佈（如總和了多個核心函數）時，整體的離散程度源自於兩個可完美相加的完全獨立來源：

核心內部的離散程度 ( $H$ )： 每一個單獨的沙堆本身都具有寬度或離散度。這種每一個點上帶入的局部「模糊感 (Blurriness)」，是由你所挑選的核心函數其固有的共變異數 $H$ 所量化的。
核心之間的離散程度（樣本共變異數 Sample Covariance）： 我們放置沙堆位置的中心點（即實際資料點 $x_i$ 的位置），它們本身也散佈在平均值 $\hat{\mu}$ 之間。這個資料集合在宏觀上的散佈程度，正巧就是標準的樣本共變異數： $\frac{1}{n} \sum (x_i - \hat{\mu})(x_i - \hat{\mu})^T$ 。

因為每一個觀測資料點都作為添加核心形狀的獨立起點，所以這兩種性質迥異的變異來源就會層層疊加。

因此，我們所建構出模型的最終變異數，剛好會等於原始資料本身就存在的變異數，加上我們使用核心作平滑化時人為添加的變異數（模糊處理）。

初學者非常容易犯的一個錯誤是去假設「我的 KDE 模型分佈會完美地重現實體樣本資料本身的統計特性」。

但現實狀況是，決定採用「平滑化 (Smoothing)」這個動作本身（使模型不會變成只剩下一根根尖銳的柱子），就已經嚴格地強迫整體變異數必須變大。您在本質上已經將機率質量向外擴張 (Fatten) 到了原始資料點邊界之外了。