特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)

您所在的位置:网站首页 数据清洗包含哪些环节 特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)

特征工程系列:数据清洗(异常值检测、清洗,缺失值填充)

2024-01-31 21:29| 来源: 网络整理| 查看: 265

特征工程系列:数据清洗 1.什么是特征工程2. 数据预处理3. 数据清洗拓扑图4. 格式内容清洗5. 逻辑错误清洗6. 异常值清洗6.1 异常值检查方法(3σ原则、箱线图分析)6.1.1 基于统计分析6.1.2 3σ原则6.1.3 箱线图分析 6.2 数据光滑处理(分箱、回归)6.3 异常处理方法 7. 缺失值清洗(删除、填充、不处理)7.1 数据填充方法(统计量统计、模型预测、插值法填充)7.1.2统计量统计7.1.3 模型预测填充7.1.4 插值法填充 7.2 缺失总结

1.什么是特征工程

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程

数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限

特征工程有相当重要的地位,是机器学习成果的关键

特征工程包括:

数据预处理 Data PreProcessing特征提取 Feature Extraction特征选择 Feature Selection特征构造 Feature construction 2. 数据预处理

数据预处理是特征工程的最重要的起始步骤,而数据清洗是数据预处理的重要组成部分,会直接影响机器学习的效果。

3. 数据清洗拓扑图

对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。

在这里插入图片描述

4. 格式内容清洗

格式内容问题产生的原因

数据由人工手机或者用户填写而来不同版本的程序产生的内容或格式不一致不同数据源采集来的的数据内容和格式不一致

时间、日期格式不一致清洗

日期格式不一致:’2019-07-20’、’20190720’、’2019/07/20’、’20/07/2019’时间戳单位不一致

数值格式不一致清洗

小数、科学计数、中午数字

全半角等显示格式不一致清洗

内容中有不该存在的字符清洗

如:身份证号中出现汉字

内容与该字段应有内容不符清洗

如:电话和身份证写错

数据类型不符清洗

如:金额特征是字符串类型,实际上应转为int/float 5. 逻辑错误清洗

数据重复清洗

存在各个特征值完全相同的两条/多条数据,此时直接删除并只保留其中一条数据。

df.drop_duplicates()

数据不完全相同,但从业务角度看待数据是同一个数据, 如页面埋点时,进入页面和退出页面都会上报一次数据,只有时间不一样,其他字段相同,在统计pv/uv时应该进行去重。

# 根据某个/多个特征值唯一区分每个样本,则可使用该特征/多个特征进行去重。 df.drop_duplicates(subset=['ID'], keep='last')

不合理值清洗

根据业务常识,也可使用箱型图发现数据中不合理的特征值

矛盾内容修正

身份证号中的数据 和年龄不符 6. 异常值清洗

异常值是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声

“伪异常” 由于特定的业务运营动作产生,是正常反应业务的状态,而不是数据本身的异常“真异常” 不是由于特定的业务运营动作产生,而是数据本身分布异常,即离群点。 6.1 异常值检查方法(3σ原则、箱线图分析) 6.1.1 基于统计分析 通过数据变异指标来发现数据中的异常点数据。常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,较密集。 6.1.2 3σ原则 若数据存在正态分布,在3σ原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3σ之外的值出现的概率为P(|x - μ| > 3σ)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3