数据处理时如何解决噪声数据？

您所在的位置：网站首页 › 噪声变量 › 数据处理时如何解决噪声数据？

数据处理时如何解决噪声数据？

2023-11-29 05:27| 来源: 网络整理| 查看: 265

一、什么是噪声

在机器学习中我们在独立随机抽样的时候会出现一些搞错的信息，这些错误的数据我们称之为杂讯（或者噪音 noise），一般可以归结为一下两种（以二分为例）：

输出错误：

1.同样的一笔数据会出现两种不同的评判

2.在同样的评判下会有不同的后续处理。

输入错误：

1.在收集数据的时由于数据源的随机性会出现错误（比如说，客户在填信息的时候出现的误填）

实际应用中的数据基本都是有干扰的，还是用信用卡发放问题举例子：

噪声产生原因：

标记错误：应该发卡的客户标记成不发卡，或者两个数据相同的客户一个发卡一个不发卡；输入错误：用户的数据本身就有错误，例如年收入少写一个0、性别写反了什么的。二、噪声数据的处理方法

常见的噪声数据的处理方法：分箱；聚类；计算机和人工检查结合；回归

1、分箱

分箱方法是一种简单常用的预处理方法，通过考察相邻数据来确定最终值。所谓“分箱”，实际上就是按照属性值划分的子区间，如果一个属性值处于某个子区间范围内，就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据（某列属性值）按照一定的规则放进一些箱子中，考察每一个箱子中的数据，采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时，需要确定的两个主要问题就是：如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法：有4种：等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。（1）统一权重

也称等深分箱法，将数据集按记录行数分箱，每箱具有相同的记录数，每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

（2）统一区间

也称等宽分箱法，使数据集在整个属性值的区间上平均分布，即每个箱的区间范围是一个常量，称为箱子宽度。

（3）用户自定义区间

用户可以根据需要自定义区间，当用户明确希望观察某些区间范围内的数据分布时，使用这种方法可以方便地帮助用户达到目的。

例：客户收入属性income排序后的值（人民币元）：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的结果如下。

统一权重：设定权重（箱子深度）为4，分箱后

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

统一区间：设定区间范围（箱子宽度）为1000元人民币，分箱后

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

用户自定义：如将客户收入划分为1000元以下、10002000、20003000、3000~4000和4000元以上几组，分箱后

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

（4）数据平滑方法

数据平滑方法又可以细分为：平均值平滑、按边界值平滑和按中值平滑。

按平均值平滑

对同一箱值中的数据求平均值，用平均值替代该箱子中的所有数据。

按边界值平滑

用距离较小的边界值替代箱中每一数据。

按中值平滑

取箱子的中值，用来替代箱子中的所有数据。

2、聚类

将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值（孤立点），这些孤立点被视为噪声。

3、回归

试图发现两个相关的变量之间的变化模式，通过使数据适合一个函数来平滑数据，即通过建立数学模型来预测下一个数值，包括线性回归和非线性回归。

三、参考文献如何处理噪声数据机器学习和数据挖掘（4）：噪声与误差机器学习中的噪音（机器学习基石）

【本文地址】

数据处理时如何解决噪声数据？

数据处理时如何解决噪声数据？

今日新闻

推荐新闻