IForest异常检测

#IForest异常检测| 来源: 网络整理| 查看: 265

IForest异常检测使用sub-sampling算法，降低了算法的计算复杂度，可以识别数据中的异常点，在异常检测领域有显著的应用效果。本文为您介绍IForest异常检测的参数配置。

使用限制

支持运行的计算资源为MaxCompute。

组件配置

您可以通过以下任意一种方式，配置IForest异常检测参数。

方式一：可视化方式在PAI-Designer工作流页面配置组件参数。页签参数名称描述字段设置特征列名数组如果您已经配置了向量列名或tensor列，则该参数不允许配置。用于训练的特征列名。说明特征列名数组、tensor列和向量列名是三个互斥参数，您只能使用其中一个参数来描述算法的输入特征。分组列名数组分组列名。 tensor列如果您已经配置了向量列名或特征列名数组，则该参数不允许配置。 tensor列名。说明特征列名数组、tensor列和向量列名是三个互斥参数，您只能使用其中一个参数来描述算法的输入特征。向量列名如果您已经配置了tensor列或特征列名数组，则该参数不允许配置。向量列对应的列名。说明特征列名数组、tensor列和向量列名是三个互斥参数，您只能使用其中一个参数来描述算法的输入特征。参数设置预测结果列名预测结果列的列名。每组最大异常点数目每组最大的异常点数目。最大异常点比例算法检测异常点的最大比例。每组最大样本数目每组最大的样本数目。模型中树的棵数模型中树的棵树，默认为100。异常评分阈值当评分大于该阈值时，判定为异常点。预测详细信息列名预测详细信息列的列名。每棵树的样本采样行数每棵树的样本采样行数，正整数。范围[2,100000]，默认为256。组件多线程线程个数组件多线程的线程个数，默认为1。执行调优节点个数节点个数，与参数单个节点内存大小配对使用，正整数。范围[1, 9999]。单个节点内存大小，单位M 单个节点内存大小，单位MB，正整数。范围[1024, 64*1024]。方式二：Python代码方式使用Python脚本V2组件，配置该组件参数。您可以使用Python脚本V2组件进行Python代码调用，详情请参见Python脚本V2。参数名称是否必选描述默认值 predictionCol 是预测结果列的列名。无 featureCols 否特征列名数组。全选 groupCols 否分组列名，支持多列。无 maxOutlierNumPerGroup 否每组最大的异常点数目。无 maxOutlierRatio 否算法检测异常点的最大比例。无 maxSampleNumPerGroup 否每组最大的样本数目。无 numTrees 否模型中树的棵数。 100 outlierThreshold 否当评分大于该阈值时，判定为异常点。无 predictionDetailCol 否预测详细信息列的列名。无 tensorCol 否 tensor列。无 vectorCol 否向量列对应的列名。无 subsamplingSize 否每棵树的样本采样行数，正整数。范围[2,100000]。 256 numThreads 否组件多线程的线程个数。 1 Python代码方式的使用示例如下。import pandas as pd df = pd.DataFrame([ [0.73, 0], [0.24, 0], [0.63, 0], [0.55, 0], [0.73, 0], [0.41, 0] ]) dataOp = BatchOperator.fromDataframe(df, schemaStr='val double, label int') outlierOp = IForestOutlierBatchOp()\ .setFeatureCols(["val"])\ .setOutlierThreshold(3.0)\ .setPredictionCol("pred")\ .setPredictionDetailCol("pred_detail") outlierOp.print()

【本文地址】

IForest异常检测

IForest异常检测

今日新闻

推荐新闻