数据处理时如何解决噪声数据?

您所在的位置:网站首页 噪声变量 数据处理时如何解决噪声数据?

数据处理时如何解决噪声数据?

2023-11-29 05:27| 来源: 网络整理| 查看: 265

一、什么是噪声

       在机器学习中我们在独立随机抽样的时候会出现一些搞错的信息,这些错误的数据我们称之为杂讯(或者噪音  noise),一般可以归结为一下两种(以二分为例):

输出错误:

1.同样的一笔数据会出现两种不同的评判  

2.在同样的评判下会有不同的后续处理。

输入错误:

1.在收集数据的时由于数据源的随机性会出现错误(比如说,客户在填信息的时候出现的误填)

实际应用中的数据基本都是有干扰的,还是用信用卡发放问题举例子:

 

 

噪声产生原因:

标记错误:应该发卡的客户标记成不发卡,或者两个数据相同的客户一个发卡一个不发卡;输入错误:用户的数据本身就有错误,例如年收入少写一个0、性别写反了什么的。 二、噪声数据的处理方法

常见的噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归

1、分箱

分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。

分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。 (1)统一权重

也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。

(2)统一区间

也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。

(3)用户自定义区间

用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。

例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。

统一权重:设定权重(箱子深度)为4,分箱后

箱1:800 1000 1200 1500

箱2:1500 1800 2000 2300

箱3:2500 2800 3000 3500

箱4:4000 4500 4800 5000

统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后

箱1:800 1000 1200 1500 1500 1800

箱2:2000 2300 2500 2800 3000

箱3:3500 4000 4500

箱4:4800 5000

用户自定义:如将客户收入划分为1000元以下、10002000、20003000、3000~4000和4000元以上几组,分箱后

箱1:800

箱2:1000 1200 1500 1500 1800 2000

箱3:2300 2500 2800 3000

箱4:3500 4000

箱5:4500 4800 5000

(4)数据平滑方法

数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。

按平均值平滑

对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。

按边界值平滑

用距离较小的边界值替代箱中每一数据。

按中值平滑

取箱子的中值,用来替代箱子中的所有数据。

2、聚类

将物理的或抽象对象的集合分组为由类似的对象组成的多个类。

找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。

3、回归

试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。

三、参考文献 如何处理噪声数据机器学习和数据挖掘(4):噪声与误差机器学习中的噪音(机器学习基石)


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3