理解多元高斯分布 |
您所在的位置:网站首页 › 外接显示器显示未处于活动状态 › 理解多元高斯分布 |
本文主要转载自参考文献【1,2】。虽然公式看起来比较多,并且似乎很复杂,其实并不难理解,静下心来慢慢看。其中,为了进一步增加可理解性,标色的为我在原文基础上加入的自己的理解。 一、多元标准高斯分布熟悉一元高斯分布的同学都知道, 若随机变量
X
∼
N
(
μ
,
σ
2
)
X \sim \mathcal{N}(\mu, \sigma^2)
X∼N(μ,σ2) , 则有如下的概率密度函数 此时我们说随机变量
Z
∼
N
(
0
,
1
)
Z \sim \mathcal{N}(0, 1)
Z∼N(0,1)服从一元标准高斯分布(
Z
Z
Z是标准正态分布,下文多次用到), 其均值
μ
=
0
\mu = 0
μ=0, 方差
σ
2
=
1
\sigma^2 = 1
σ2=1,其概率密度函数为 随机变量 X X X 标准化的过程, 实际上是消除量纲影响和分布差异的过程. 通过将随机变量的值减去其均值再除以标准差, 使得随机变量与其均值的差距可以用若干个标准差来衡量, 从而实现了不同随机变量与其对应均值的差距, 可以以一种相对的距离来进行比较. 一元标准高斯分布与我们讨论多元标准高斯分布有什么关系呢? 事实上, 多元标准高斯分布的概率密度函数正是从(4)导出的. 假设我们有随机向量 Z ⃗ = [ Z 1 , ⋯ , Z n ] ⊤ \vec{Z} = [Z_1, \cdots, Z_n]^\top Z =[Z1,⋯,Zn]⊤ , 其中 Z i ∼ N ( 0 , 1 ) ( i = 1 , ⋯ , n ) Z_i \sim \mathcal{N}(0, 1) (i = 1, \cdots, n) Zi∼N(0,1)(i=1,⋯,n) 且 Z i , Z j ( i , j = 1 , ⋯ , n ∧ i ≠ j ) Z_i, Z_j(i, j = 1, \cdots, n \wedge i \neq j) Zi,Zj(i,j=1,⋯,n∧i=j) 彼此独立, 即随机向量中的每个随机变量 Z i Z_{i} Zi都服从标准高斯分布且两两彼此独立. 则由(4)与独立随机变量概率密度函数之间的关系, 我们可得随机向量 Z ⃗ = [ Z 1 , ⋯ , Z n ] ⊤ \vec{Z} = [Z_1, \cdots, Z_n]^\top Z =[Z1,⋯,Zn]⊤ 的联合概率密度函数为
由(7)我们可知, 其等高线为以(0, 0)为圆心的同心圆. 由上一节我们知道, 当随机向量 Z ⃗ ∼ N ( 0 ⃗ , I ) \vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I}) Z ∼N(0 ,I)时, 其每个随机变量 Z i ∼ N ( 0 , 1 ) ( i = 1 , ⋯ , n ) Z_i \sim \mathcal{N}(0, 1) (i = 1, \cdots, n) Zi∼N(0,1)(i=1,⋯,n)彼此独立, 我们可通过(4)与独立随机变量概率密度函数之间的关系得出其联合概率密度函数(5). 那对于普通的随机向量 X ⃗ ∼ N ( μ ⃗ , Σ ) \vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) X ∼N(μ ,Σ) , 即其每个随机变量 X i ∼ N ( μ i , σ i 2 ) ( i = 1 , ⋯ , n ) X_i \sim \mathcal{N}(\mu_i, \sigma_i^2) (i = 1, \cdots, n) Xi∼N(μi,σi2)(i=1,⋯,n) 且 X i , X j ( i , j = 1 , ⋯ , n ) X_i, X_j(i, j = 1, \cdots, n) Xi,Xj(i,j=1,⋯,n)彼此不独立的情况下, 我们该如何求随机向量 X ⃗ \vec{X} X 的联合概率密度函数呢? 一个很自然的想法是, 如果我们能通过线性变换, 使得随机向量 X ⃗ \vec{X} X 中的每个随机变量彼此独立, 则我们也可以通过独立随机变量概率密度函数之间的关系求出其联合概率密度函数. 事实上, 我们有如下定理可完成这个工作(来源) 定理1: 若存在随机向量 X ⃗ ∼ N ( μ ⃗ , Σ ) \vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) X ∼N(μ ,Σ) , 其中 μ ⃗ ∈ R n \vec{\mu} \in R^n μ ∈Rn为均值向量, Σ ∈ S + + n × n \Sigma \in S^{n \times n}_{++} Σ∈S++n×n半正定实对称矩阵为 X ⃗ \vec{X} X 的协方差矩阵, 则存在满秩矩阵 B ∈ R n × n B \in R^{n \times n} B∈Rn×n, 使得 Z ⃗ = B − 1 ( X ⃗ − μ ⃗ ) \vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) Z =B−1(X −μ ) , 而 Z ⃗ ∼ N ( 0 ⃗ , I ) \vec{Z} \sim \mathcal{N}(\vec{0}, \mathbf{I}) Z ∼N(0 ,I). 有了定理1, 我们就可以对随机向量
X
⃗
\vec{X}
X
做相应的线性变换, 使其随机变量在线性变换后彼此独立, 从而求出其联合概率密度函数, 具体地 如果我们取常数
c
=
p
(
x
1
,
⋯
,
x
n
)
c = p(x_1, \cdots, x_n)
c=p(x1,⋯,xn) , 则可得函数
p
(
x
1
,
⋯
,
x
n
)
p(x_1, \cdots, x_n)
p(x1,⋯,xn)的等高线为
c
=
(
X
⃗
−
μ
⃗
)
⊤
Σ
−
1
(
X
⃗
−
μ
⃗
)
c= (\vec{X} - \vec{\mu})^\top \Sigma^{-1}(\vec{X} - \vec{\mu})
c=(X
−μ
)⊤Σ−1(X
−μ
) , 当随机向量
X
⃗
\vec{X}
X
为二维向量时, 我们对协方差矩阵
Σ
\Sigma
Σ进行分解, 因为其为实对称矩阵, 可正交对角化(理论) 如果协方差矩阵
Σ
\Sigma
Σ 不是对角矩阵, 则正交对角化得到的酉矩阵
Q
Q
Q 不是标准正交基, 其代表一个旋转, 此时的椭圆应该是一个倾斜的椭圆, 随机向量
X
⃗
\vec{X}
X
中的随机变量不是彼此独立的; 现在我们知道, 随机向量 X ⃗ ∼ N ( μ ⃗ , Σ ) \vec{X} \sim \mathcal{N}(\vec{\mu}, \Sigma) X ∼N(μ ,Σ) 的联合概率密度函数是通过线性变换 Z ⃗ = B − 1 ( X ⃗ − μ ⃗ ) \vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) Z =B−1(X −μ ) 的帮助, 将随机向量 X ⃗ \vec{X} X 的各个随机变量去相关性, 然后利用独立随机变量概率密度函数之间的关系得出的, 亦既是定理1所表述的内容. 那具体地, 线性变化 Z ⃗ = B − 1 ( X ⃗ − μ ⃗ ) \vec{Z} = B^{-1}(\vec{X} - \vec{\mu}) Z =B−1(X −μ ) 是怎么去相关性使随机向量 X ⃗ \vec{X} X 的各个随机变量彼此独立的呢? 我们不妨在二维平面上, 再次由定理1和(15)出发来看看这个去相关性的过程. 由定理1我们有 本文从多元标准高斯分布出发, 阐述了如何通过线性变换, 将任意的服从多元高斯分布的随机向量去相关性, 并求出其联合概率密度函数的过程, 最后给出了线性变换的具体过程阐述. 多元高斯分布是许多其他理论工具的基础, 掌握它是进行其他相关理论研究的关键. 五、二维高斯分布我们已经知道多维高斯分布的概率密度为: 要点: 协方差矩阵的对角线元素为 x x x 和 y y y 轴的方差反斜对角线上的两个值为协方差,表明 x x x和 y y y的线性相关程度(正值时: x x x增大, y y y也随之增大;负值时: x x x增大, y y y随之减小)以下以二维高斯分布为例,显示了不同协方差矩阵时的概率分布。 【1】多元高斯分布完全解析 转载自1 【2】协方差矩阵与二维高斯分布 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |