Skip to main content

Explain ZH

KDE 方差界限的解釋

估計器的方差告訴我們,在不同的隨機數據集中,估計值圍繞其平均值波動的程度。

推導的關鍵見解:

var(p^(x))Cnhd\text{var}(\hat{p}(x)) \le \frac{C}{nh^d}

其中 CC 取決於核函數的最大值和密度本身。

  1. 1/n1/n 因子: 當我們獲得更多數據點(nn 增加)時,方差會減小。這對大多數統計估計器來說是標準的;更多數據意味著更穩定。
  2. 1/hd1/h^d 因子: 當帶寬 hh 變小時,方差會 增加
    • 這可以這樣理解:如果 hh 非常小,那麼 xx 處的密度估計僅取決於極其接近 xx 的數據點。這是一個稀有事件,因此在不同的數據集之間,計數會劇烈波動(0、1 或 2 個點),導致高方差。
    • 如果 hh 很大,我們會在一個大區域內進行平均,從而穩定計數並減少方差。

偏差-方差權衡 (Bias-Variance Tradeoff):

  • 第 (a) 部分 (偏差): 小的 hh 減少偏差(較少的平滑)。
  • 第 (b) 部分 (方差): 小的 hh 增加方差(更多噪聲)。

這意味著我們需要仔細調整 hh。我們希望當 nn \to \inftyh0h \to 0 以消除偏差,但我們需要 nhdnh^d \to \infty 以消除方差。這意味著 hh 必須收縮,但相對於樣本量 nn 不能收縮得太快。