IForest异常检测

您所在的位置:网站首页 iforest IForest异常检测

IForest异常检测

#IForest异常检测| 来源: 网络整理| 查看: 265

IForest异常检测使用sub-sampling算法,降低了算法的计算复杂度,可以识别数据中的异常点,在异常检测领域有显著的应用效果。本文为您介绍IForest异常检测的参数配置。

使用限制

支持运行的计算资源为MaxCompute。

组件配置

您可以通过以下任意一种方式,配置IForest异常检测参数。

方式一:可视化方式 在PAI-Designer工作流页面配置组件参数。 页签 参数名称 描述 字段设置 特征列名数组 如果您已经配置了向量列名或tensor列,则该参数不允许配置。 用于训练的特征列名。 说明 特征列名数组、tensor列和向量列名是三个互斥参数,您只能使用其中一个参数来描述算法的输入特征。 分组列名数组 分组列名。 tensor列 如果您已经配置了向量列名或特征列名数组,则该参数不允许配置。 tensor列名。 说明 特征列名数组、tensor列和向量列名是三个互斥参数,您只能使用其中一个参数来描述算法的输入特征。 向量列名 如果您已经配置了tensor列或特征列名数组,则该参数不允许配置。 向量列对应的列名。 说明 特征列名数组、tensor列和向量列名是三个互斥参数,您只能使用其中一个参数来描述算法的输入特征。 参数设置 预测结果列名 预测结果列的列名。 每组最大异常点数目 每组最大的异常点数目。 最大异常点比例 算法检测异常点的最大比例。 每组最大样本数目 每组最大的样本数目。 模型中树的棵数 模型中树的棵树,默认为100。 异常评分阈值 当评分大于该阈值时,判定为异常点。 预测详细信息列名 预测详细信息列的列名。 每棵树的样本采样行数 每棵树的样本采样行数,正整数。范围[2,100000],默认为256。 组件多线程线程个数 组件多线程的线程个数,默认为1。 执行调优 节点个数 节点个数,与参数单个节点内存大小配对使用,正整数。范围[1, 9999]。 单个节点内存大小,单位M 单个节点内存大小,单位MB,正整数。范围[1024, 64*1024]。 方式二:Python代码方式 使用Python脚本V2组件,配置该组件参数。您可以使用Python脚本V2组件进行Python代码调用,详情请参见Python脚本V2。 参数名称 是否必选 描述 默认值 predictionCol 是 预测结果列的列名。 无 featureCols 否 特征列名数组。 全选 groupCols 否 分组列名,支持多列。 无 maxOutlierNumPerGroup 否 每组最大的异常点数目。 无 maxOutlierRatio 否 算法检测异常点的最大比例。 无 maxSampleNumPerGroup 否 每组最大的样本数目。 无 numTrees 否 模型中树的棵数。 100 outlierThreshold 否 当评分大于该阈值时,判定为异常点。 无 predictionDetailCol 否 预测详细信息列的列名。 无 tensorCol 否 tensor列。 无 vectorCol 否 向量列对应的列名。 无 subsamplingSize 否 每棵树的样本采样行数,正整数。范围[2,100000]。 256 numThreads 否 组件多线程的线程个数。 1 Python代码方式的使用示例如下。import pandas as pd df = pd.DataFrame([ [0.73, 0], [0.24, 0], [0.63, 0], [0.55, 0], [0.73, 0], [0.41, 0] ]) dataOp = BatchOperator.fromDataframe(df, schemaStr='val double, label int') outlierOp = IForestOutlierBatchOp()\ .setFeatureCols(["val"])\ .setOutlierThreshold(3.0)\ .setPredictionCol("pred")\ .setPredictionDetailCol("pred_detail") outlierOp.print()


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3