多元高斯分布是實向量 x=x1⋮xd∈Rd 上的概率密度,由均值向量 μ∈Rd 和協方差矩陣 Σ∈S+d(即 d 維正定對稱矩陣)參數化。密度函數為
p(x)=N(x∣μ,Σ)=(2π)d/2∣Σ∣1/21e−21∥x−μ∥Σ2,(1.12)
其中 ∣Σ∣ 是 Σ 的行列式,並且
∥x−μ∥Σ2=(x−μ)TΣ−1(x−μ)(1.13)
是馬氏距離(Mahalanobis distance)。在這個問題中,我們將探討不同的協方差矩陣如何影響密度的形狀。
首先,考慮 Σ 為對角矩陣的情況,即非對角元素為 0,
Σ=σ120⋱0σd2.(1.14)
(a) 證明當協方差矩陣為對角矩陣時,多元高斯分布等價於假設向量的元素是獨立的,並且每個元素都服從單變量高斯分布,即
N(x∣μ,Σ)=i=1∏dN(xi∣μi,σi2).(1.15)
提示:對角矩陣的以下性質將會有用:
∣Σ∣=i=1∏dσi2,Σ−1=σ1210⋱0σd21.(1.16)
(b) 繪製馬氏距離項和二維高斯分布的概率密度函數,其中 μ=[00],且 Σ=[1000.25]。對角項如何影響密度的形狀?
(c) 繪製馬氏距離項和概率密度函數,當每個維度的方差相同時,例如 μ=[00],且 Σ=[1001]。這有時被稱為 i.i.d.(獨立同分布)協方差矩陣、各向同性協方差矩陣或圓形協方差矩陣。
接下來,我們將考慮協方差矩陣的一般情況。
(d) 令 {λi,vi} 為 Σ 的特徵值/特徵向量對,即
Σvi=λivi,i∈{1,⋯,d}.(1.17)
證明 Σ 可以寫為
Σ=VΛVT,(1.18)
其中 V=[v1,⋯,vd] 是特徵向量矩陣,Λ=diag(λ1,⋯,λd) 是特徵值的對角矩陣。
(e) 令 y=VT(x−μ)。證明馬氏距離 ∥x−μ∥Σ2 可以改寫為 ∥y∥Λ2,即具有對角協方差矩陣的馬氏距離。(提示:使用問題 1.12)。因此,在 y 空間中,多元高斯分布具有對角協方差矩陣。
(f) 考慮從 y 到 x 的變換:x=Vy+μ。V 和 μ 的作用是什麼?
(g) 繪製馬氏距離項和二維高斯分布的概率密度函數,其中 μ=[00],且 Σ=[0.6250.3750.3750.625]。Σ 的特徵向量和特徵值如何影響密度的形狀?