机器学习之数据清洗、特征提取与特征选择 |
您所在的位置:网站首页 › 落户哪里好 › 机器学习之数据清洗、特征提取与特征选择 |
作者:IT老友 出处:今日头条 原文链接:机器学习之数据清洗、特征提取与特征选择 前言:数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限。 上篇回顾:图文理解机器学习基础概念 提示:本文先不必强求甚解,宜按图索骥。 对数据的每一步操作请务必备份!备份! 一、数据清洗 缺失值处理根据缺失率和重要性,分为去除字段、填充缺失值、重新取数据。 其中,填充缺失值的方法有: a. 以业务知识或经验推测填充。 b.平均值、中值、分位数、众数、随机值、插值等来填充。 c. 建立一个模型来“预测”缺失的数据。 d. 引入虚拟变量以映射到高维空间。 2. 格式与内容处理 格式与内容的问题是五花八门的,下图仅部分例子: 格式和内容处理是非常考究耐心和细心。 3. 去除重复的数据。 4. 噪音数据的处理 噪音数据过多,会导致模型泛化能力差。 但适当的噪音数据,有助于防止过拟合。 二、特征提取与特征选择的区别 特征提取(Feature Extraction): 特征选择(Feature Selection): 对比图: 三、特征提取基本方法 1.主成分分析(PCA) 将n维特征映射到k维上(k 2. 线性判别分析法(LDA) 将高维的数据样本投影到最佳判别的矢量空间,保证样本数据在该空间中有最佳的可分离性。 显然上图投影到右边的矢量空间比左边的更好。 3. 多维尺度分析法(MDS) 根据样本之间的距离关系或不相似度关系在低维空间里生成对样本的一种表示。 4.独立成分分析法( ICA ) 利用统计原理把数据或信号分离成统计独立的非高斯的信号源的线性组合。 5. 核主成分分析法(如核方法KPCA,KDA) 先对样本进行非线性变换,再在变换空间进行主成分分析来实现在原空间的非线性主成分分析。6.基于流型学习的方法 通过局部距离来定义非线性距离度量,在样本分布较密集的情况下可以实现各种复杂的非线性距离度量。 四、特征选择 特征选择的流程图: 特征选择方法: 1. 按搜索策略分类 2. 按评价准则分类。 数据处理的本质就是为了尽可能的找到“充分且必要”的特征,因此往往花费80%以上的时间。 如此呕心沥血,不点赞支持吗?谢谢! |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |