Skip to main content

Answer ZH

逐步解答

  1. 從 (b) 推導出的 p^(x)\hat{p}(x) 性質: 結果 Σ^=S+H\hat{\Sigma} = S + H(其中 SS 是樣本共變異數)告訴我們,核密度估計值的變異數總是比潛在的樣本資料大。KDE 會「過度平滑」或擴散資料。額外擴散的量完全由頻寬矩陣 HH 決定。

  2. 與偏差 (Bias) 的關係: 密度估計中的偏差通常指 E[p^(x)]p(x)\mathbb{E}[\hat{p}(x)] - p(x)(其中期望值是對資料集取的)。 然而,這個問題可能指的是變異數估計中的「偏差」或平滑偏差。 由於變異數被 HH 膨脹了,估計值「偏向」於比真實分佈更平坦且更寬(假設樣本共變異數是真實共變異數的良好估計)。

    具體來說,如果真實分佈 p(x)p(x) 的共變異數為 Σ\Sigma,且 SΣS \approx \Sigma,則 covp^(x)Σ+H\text{cov}_{\hat{p}}(x) \approx \Sigma + H

    • 如果 HH 很大(大頻寬),變異數會遠大於真實變異數(高偏差,估計量本身的變異數低)。
    • 如果 HH 很小,我們會接近樣本變異數(低偏差,估計量的變異數高)。

    HH 代表為了獲得連續密度函數而引入的平滑偏差。這種平滑化降低了估計密度函數值的變異,但代價是使分佈的結構(動差)產生偏差,特別是膨脹了二階動差。

    平均數估計量的情境下,它是不偏的(如 (a) 部分所示)。 在共變異數的情境下,它會有 HH 的向上偏差。