-
分析當 q→0 時的損失函數:
明可夫斯基損失為 Lq(g(x),y)=∣g(x)−y∣q。
讓我們看看當 q→0 時的極限:
- 如果 g(x)=y,則 ∣g(x)−y∣>0。任何正數的 0 次方都是 1。所以,limq→0∣g(x)−y∣q=1。
- 如果 g(x)=y,則 ∣g(x)−y∣=0。對於任何 q>0,0q=0。所以,limq→0∣0∣q=0。
因此,當 q→0 時,損失函數趨近於 0-1 損失函數(通常用於分類,但在這裡應用於連續空間):
L0(g(x),y)={01如果 g(x)=y如果 g(x)=y
注意:在嚴格的連續設定中,精確猜中 y 的機率為零。更嚴謹的方法是考慮在 g(x) 周圍有一個小的容差 ϵ,即如果 ∣g(x)−y∣<ϵ 則損失為 0,否則為 1,然後取 ϵ→0 的極限。
-
定義帶有 ϵ-容差的條件風險:
讓我們定義一個損失函數 Lϵ:
Lϵ(g(x),y)={01如果 ∣g(x)−y∣≤ϵ如果 ∣g(x)−y∣>ϵ
條件風險為:
R(x)=∫−∞∞Lϵ(g(x),y)p(y∣x)dy
R(x)=∫∣g(x)−y∣>ϵ1⋅p(y∣x)dy+∫g(x)−ϵg(x)+ϵ0⋅p(y∣x)dy
R(x)=∫∣g(x)−y∣>ϵp(y∣x)dy
-
最小化條件風險:
我們知道總機率為 1:
∫−∞∞p(y∣x)dy=1
∫∣g(x)−y∣>ϵp(y∣x)dy+∫g(x)−ϵg(x)+ϵp(y∣x)dy=1
所以,風險可以改寫為:
R(x)=1−∫g(x)−ϵg(x)+ϵp(y∣x)dy
為了最小化 R(x),我們必須最大化積分項:
maxg(x)∫g(x)−ϵg(x)+ϵp(y∣x)dy
-
取 ϵ→0 的極限:
對於非常小的 ϵ,積分可以近似為區間寬度乘以中心點的函數高度:
∫g(x)−ϵg(x)+ϵp(y∣x)dy≈2ϵ⋅p(g(x)∣x)
所以,我們想要最大化:
maxg(x)2ϵ⋅p(g(x)∣x)
因為 2ϵ 是一個正常數,這等同於最大化機率密度函數本身:
g∗(x)=argmaxyp(y∣x)
-
解釋結果:
使機率密度函數 p(y∣x) 最大化的值 y,根據定義,就是分佈的眾數 (mode)。
因此,g∗(x)=mode(y∣x)。