Skip to main content

解說 (b)

直覺 (Intuition)

這個變異數的上界 (Upper Bound) 公式 1nhdmaxx(k(x))E[p^(x)]\frac{1}{nh^d}\max_x(k(x))\mathbb{E}[\hat{p}(x)] 看似複雜嚴謹,但它其實為我們提供了非常棒的直覺,讓我們了解核心密度估計 (Kernel Density Estimator, KDE) 在現實世界中是如何運作以及產生誤差的。

變異數 (Variance) 告訴我們預測出來的密度曲線 p^(x)\hat{p}(x) 有多麼「搖擺不定」或不穩定。如果我們抽取兩組不同的隨機樣本,導致畫出來的曲線天差地遠,這就代表變異數很高。

我們透過幾何觀點來拆解這個界線:

  1. 資料越多越好 (More Data is Better, nn)

    • nn 這個項直接位於分母。
    • 當你的樣本數 nn \to \infty 時,變異數的上限就會縮小逼近於零。
    • 意義:你擁有的資料點越多,你的曲線就會變得越穩定可靠。
  2. 帶寬的權衡 (The Bandwidth Trade-off, hdh^d)

    • hdh^d 這個項 (dd 是維度) 同樣位於分母。
    • 如果你把你的帶寬 hh 設得很小 (就像一個極端狹窄、尖銳的核心),hdh^d 就會變得極小。因為它在分母,這會導致變異數飆升到接近無限大。
    • 意義:如果你的平滑化視窗太窄,你的曲線會變成一個瘋狂、充滿雜訊的雲霄飛車,它會強烈地去迎合每一個獨立資料點的精確位置。這再次證實了經典的偏差-變異數權衡 (bias-variance tradeoff):縮小 hh 可以降低偏差 (Bias,見第一小題結論),但卻會導致變異數猛烈膨脹。
  3. 變異數隨著密度成比例變化 (Variance Scales with Density, E[p^(x)]\mathbb{E}[\hat{p}(x)])

    • 注意到變異數與 E[p^(x)]\mathbb{E}[\hat{p}(x)] 本身成正比。
    • 意義:在密度很高的地方 (例如分佈圖的山峰處),你預期的曲線絕對波動 (var\text{var}) 會比較大。相反地,在機率分佈的尾部 (機率質量極小的平坦區),曲線的絕對波動幅度則會非常小。