Explain ZH
直觀理解 (Intuition)
現在讓我們想像著去計算所有組合起來的沙堆(也就是我們最終估計出的分佈 )其整體的「離散程度」或變異數/共變異數 (Variance / Covariance)。
總變異量定律 (Law of Total Variance) 提示我們,當我們混合了不同的分佈(如總和了多個核心函數)時,整體的離散程度源自於兩個可完美相加的完全獨立來源:
- 核心內部的離散程度 (): 每一個單獨的沙堆本身都具有寬度或離散度。這種每一個點上帶入的局部「模糊感 (Blurriness)」,是由你所挑選的核心函數其固有的共變異數 所量化的。
- 核心之間的離散程度(樣本共變異數 Sample Covariance): 我們放置沙堆位置的中心點(即實際資料點 的位置),它們本身也散佈在平均值 之間。這個資料集合在宏觀上的散佈程度,正巧就是標準的樣本共變異數:。
因為每一個觀測資料點都作為添加核心形狀的獨立起點,所以這兩種性質迥異的變異來源就會層層疊加。
因此,我們所建構出模型的最終變異數,剛好會等於原始資料本身就存在的變異數,加上我們使用核心作平滑化時人為添加的變異數(模糊處理)。
常見誤區 (Common Pitfalls)
初學者非常容易犯的一個錯誤是去假設「我的 KDE 模型分佈會完美地重現實體樣本資料本身的統計特性」。
但現實狀況是,決定採用「平滑化 (Smoothing)」這個動作本身(使模型不會變成只剩下一根根尖銳的柱子),就已經嚴格地強迫整體變異數必須變大。您在本質上已經將機率質量向外擴張 (Fatten) 到了原始資料點邊界之外了。