深度学习中数据降维方法总结:将原高维空间中的数据点映射到低维度的空间中

您所在的位置:网站首页 目标函数怎么设置为列向量方差最大值 深度学习中数据降维方法总结:将原高维空间中的数据点映射到低维度的空间中

深度学习中数据降维方法总结:将原高维空间中的数据点映射到低维度的空间中

2023-09-15 06:18| 来源: 网络整理| 查看: 265

机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x-> y,其中 x 是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常 y 的维度小于 x 的维度(当然提高维度也是可以的)。f 可能是显式的或隐式的、线性的或非线性的。

目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的数据。

之所以使用降维后的数据表示是因为: ① 在原始的高维空间中,包含有冗余信息以及噪音信息,在实际应用例如图像识别中造成了误差,降低了准确率;而通过降维,我们希望减少冗余信息所造成的误差,提高识别(或其他应用)的精度。 ② 又或者希望通过降维算法来寻找数据内部的本质结构特征。

在很多算法中,降维算法成为了数据预处理的一部分,如PCA。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。

数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。 数据降维的方法 主要的方法是线性映射和非线性映射两大类。

一、线性映射

线性映射方法的代表方法有:PCA(Principal Component Analysis),LDA(Discriminant Analysis)

1.1 主成分分析算法(PCA)

主成分分析(PCA) 是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。 是将原空间变换到特征向量空间内,数学表示为 AX = γX。

主成分分析算法(PCA)

为什么要用协方差矩阵来特向分解呢?

协方差矩阵表征了变量之间的相关程度(维度之间关系)。

对数据相关性矩阵的特向分解,意味着找到最能表征属性相关性的特向(最能表征即误差平方最小)。PCA一开始就没打算对数据进行特向分解,而是对数据属性的相关性进行分析,从而表示出最能代表属性相关性的特向,然后将原始数据向这些特向上投影。所以,有的地方说PCA去相关。

通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息(如点和点之间的距离关系)都丢失了,而如果映射后方差尽可能的大,那么数据点则会分散开来,以此来保留



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3