离群点检测方法

您所在的位置:网站首页 检测离群值的常用方法有哪些 离群点检测方法

离群点检测方法

#离群点检测方法| 来源: 网络整理| 查看: 265

异常值检测一般要求新发现的数据是否与现有观测数据具有相同的分布或者不同的分布,相同的分布可以称之为内点(inlier),具有不同分布的点可以称之为离群值。离群点和新奇点检测是不同的,有一个重要的区分必须掌握:

离群点检测:训练数据包含离群点,这些离群点被定义为远离其它内点的观察值。因此,离群点检测估计器会尝试拟合出训练数据中内围点聚集的区域, 而忽略异常值观察。

新奇点检测:训练数据没有受到离群点污染,我们感兴趣的是检测一个新的观测值是否为离群点。在这种情况下,离群点被认为是新奇点。

离群点检测和新奇点检测都用于异常检测, 其中一项感兴趣的是检测异常或异常观察。离群点检测又被称之为无监督异常检测,新奇点检测又被称之为半监督异常检测。 在离群点检测的背景下, 离群点/异常点不能够形成密集的簇,因为可用的估计器假设离群点/异常点位于低密度区域。相反的,在新奇点检测的背景下, 新奇点/异常点只要位于训练数据的低密度区域,是可以形成稠密聚类簇的,在此背景下被认为是正常的。

scikit-learn有一套机器学习工具estimator.fit(X_train),可用于新奇点或离群值检测。然后可以使用estimator.predict(X_test)方法将新观察值分类为离群点或内点 :内围点会被标记为1,而离群点标记为-1。

e75e7a3356a31ce4c3c937f8f2a91ce6.png

离群点检测方法总结

下面的例子展示了二维数据集上不同异常检测算法的特点。数据集包含一种或两种



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3