主成分分析(PCA)与线性判别分析(LDA)的区别与联系 |
您所在的位置:网站首页 › 方差和s的区别和联系 › 主成分分析(PCA)与线性判别分析(LDA)的区别与联系 |
刚整理完PCA的内容,又记得之前用过LDA但是并没有在这里整理,所以今天把这两个算法整理下,方便以后查阅。 主成分分析(PCA)与线性判别分析(LDA)的区别与联系 1 主成分分析(PCA)2 线性判别分析(LDA)3 PCA与LDA的区别3.1 PCA3.1.1 目的3.1.2 步骤 3.2 LDA3.2.1 特点3.2.2 目的3.2.3 步骤 3.3 相同与不同 参考文章注:这里说的LDA实际上讲的是Fisher linear discriminant analysis 在machine learning领域,PCA和LDA都可以看成是数据降维的一种方式。但是PCA是unsupervised,也就是说不需要知道sample对应的label,而LDA是supervised,需要知道每一个数据点对应的label。 1 主成分分析(PCA)有关主成分分析的内容在下面这篇文章中有详细解释:主成分分析(PCA) 2 线性判别分析(LDA)LDA(这里指的是fisher’s linear discriminant)把线性分类看成是数据降维的一种应用。考虑一个二分类问题,假设输入 D D D维向量 x x x,我们通过线性变换将它投影到一维空间上: y = w T x y=w^Tx y=wTx 如果我们对 y y y设定一个阈值,令 y ⩾ − w 0 y⩾−w0 y⩾−w0的时候,判定为 c l a s s 1 class1 class1,否则判定为 c l a s s 2 class2 class2那么这其实就是标准的线性分类器。 为了能让我们的判定尽可能准确,我们需要让投影之间的两个类之间的差距尽可能大。 现在仍旧考虑二分类问题,假设有
N
1
N1
N1个
C
1
C1
C1类别的点,有
N
2
N2
N2个
C
2
C2
C2类别的点,则两个类别的数据的均值分别为 这么一个约束优化问题和上面的PCA类似,解得结果可以得到 w ∝ ( m 2 − m 1 ) w∝(m_2−m_1) w∝(m2−m1) 也就是说,
w
w
w是和两类数据中心点构成的矢量平行。如下面左图所示: 红色和蓝色分别表示两类数据,可以看到,尽管在投影方向 w w w上,两类数据确实有分开,但是还存在很大程度上的交叠。 Fisher提出的观点就是在让投影之后的数据尽量分开的同时,也要让两个数据的方差最小,最后变成右图所示的结果。 投影之后数据的类内方差表达式为 我们可以定义总体的类内方差为 s 1 2 + s 2 2 s^2_1+s^2_2 s12+s22。Fisher判别准则定义为类间方差和类内方差的比值,也就是
从(2)式我们可以看到
S
B
w
S_Bw
SBw是始终和
m
2
−
m
1
m_2−m_1
m2−m1平行的,同时我们并不在意
w
w
w的大小,只在意它的方向,因此,我们可以把
w
T
S
B
w
w^TS_Bw
wTSBw 和
w
T
S
w
w
w^TS_ww
wTSww 直接去掉,然后再在(3)式两边同时乘上
S
w
−
1
S^{−1}_w
Sw−1,就可以得到 所以PCA和LDA虽然都用到数据降维的思想,但是监督方式不一样,目的也不一样。 PCA是为了去除原始数据集中冗余的维度,让投影子空间的各个维度的方差尽可能大,也就是熵尽可能大。 LDA是通过数据降维找到那些具有discriminative的维度,使得原始数据在这些维度上的投影,不同类别尽可能区分开来。 3.1 PCAPCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法,可用于提取数据的主要特征分量。 3.1.1 目的在高维数据中找方差最大的方向, 将 n n n维特征映射到 k k k维上 ( k < n ) (k < n) (k |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |