weka实际操作

您所在的位置:网站首页 java回归分析 weka实际操作

weka实际操作

2023-10-20 05:35| 来源: 网络整理| 查看: 265

转载已授权,原始链接:http://blog.csdn.net/qq_38663729/article/details/77253165

weka提供了几种处理数据的方式,其中分类和回归是平时用到最多的,也是非常容易理解的,分类就是在已有的数据基础上学习出一个分类函数或者构造出一个分类模型。这个函数或模型能够把数据集中地映射到某个给定的类别上,从而进行数据的预测。就是通过一系列的算法,将看起来本来分散的数据,给划分成一个个不同的类,我们可以知道某个数据为什么要划分到这个类别,后来的数据通过这个过程就可以知道把它划分到哪个类别,从而进行了数据的预测。

要进行分类,我们根据什么分类,这就需要把数据分为训练集和测试集两个部分,先分析训练集的数据的特点构建出分类模型。然后利用构建好的分类模型对测试集的数据进行分类,评估分类的准确性,从而进行分类器的选择。

常用的分类器也是最好容易理解的就是决策树,决策树的结构非常好理解,构建出来的决策树,用户也容易根据数据人工进行分类处理。决策树分类算法是将数据进行分类,生成一棵二叉或者多叉的树状结构。有一个根节点,没有入边(度),可能有多条出边,在树的内部的节点只有一个入边,没有出边的节点称为叶子节点,从根节点到叶子节点的一条路径是一条分类规则,一棵决策树有多条分类规则。

打开weka,选择Explorer

点击进去之后,在第一个选项卡下(Preprocess),选择Open file选择要打开的文件,注意:weka识别的文件只是arff后缀的文件,

arff格式文件主要由两个部分构成,头部定义和数据区。这种格式的文件以%开头的是注释,@attribute开头说明是属性,后面是属性名,属性取值或者属性值的类型,@data后的是数据集,以行为单位,一行代表一条数据,以逗号隔开每个属性值,注意用合适的软件打开,用记事本打开的时候,文件中的换行符号不识别,格式很难看,建议用EditPlus。

在weka的安装文件中有一个data文件夹,里面是weka自带的一些测试数据,我们可以利用他们进行练习,打开weather.nominal.arff文件,可以看到一些基本的信息,也可以利用Save按钮将csv格式的文件保存成arff格式的

,在这之前先将数据进行一下处理,利用提供的数据改成测试数据,从而对数据进行预测。把文件中的play属性值都变成?占位符,否则是无法识别的。选择第二个选项卡Classify分类

单击choose,在trees目录下选择J48,这是决策树的一个构建类,后期可以通过java调用完成这个操作,Test options中有四个单选按钮,选择第二个,单击右面的set按钮,设置测试数据集,Open file打开之前修改的测试数据集,单击Start,开始运行,右下角的那只鸟如果来回走动表示正在执行,可以看到右面的文本框输出信息

[plain]  view plain  copy === Run information ===      Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2   Relation:     weather.symbolic   Instances:    14   Attributes:   5                 outlook                 temperature                 humidity                 windy                 play   Test mode:    user supplied test set:  size unknown (reading incrementally)      === Classifier model (full training set) ===      J48 pruned tree   ------------------      outlook = sunny   |   humidity = high: no (3.0)   |   humidity = normal: yes (2.0)   outlook = overcast: yes (4.0)   outlook = rainy   |   windy = TRUE: no (2.0)   |   windy = FALSE: yes (3.0)      Number of Leaves  :     5      Size of the tree :  8         Time taken to build model: 0 seconds      === Evaluation on test set ===      Time taken to test model on supplied test set: 0 seconds      === Summary ===      Total Number of Instances                0        Ignored Class Unknown Instances                 14           === Detailed Accuracy By Class ===                       TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class                    0.000    0.000    0.000      0.000    0.000      0.000    ?         ?         yes                    0.000    0.000    0.000      0.000    0.000      0.000    ?         ?         no   Weighted Avg.    NaN      NaN      NaN        NaN      NaN        NaN      NaN       NaN             === Confusion Matrix ===       a b   


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3