数据挖掘常用算法有哪些?分类、聚类、预测、关联规则

您所在的位置:网站首页 数据挖掘的预测建模任务不包括哪类问题 数据挖掘常用算法有哪些?分类、聚类、预测、关联规则

数据挖掘常用算法有哪些?分类、聚类、预测、关联规则

2024-07-03 08:17| 来源: 网络整理| 查看: 265

在数据挖掘的发展过程中,由于数据挖掘不断地将诸多学科领域知识与技术融入当中,因此,目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看,数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类,目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索性分析、支持向量机与最近邻分析等:神经网络方法分为前向神经网络、自组织神经网络、感知机、多层神经网络、深度学习等。在具体的项目应用场景中通过使用上述这些特定算法,可以从大数据中整理并挖掘出有价值的所需数据,经过针对性的数学或统计模型的进一步解释与分析, 提取出隐含在这些大数据中的潜在的规律、规则、知识与模式口。下面介绍数据挖据中经常使用的分类、聚类、关联规则与时间序列预测等相关概念。

数据挖掘方法中的一种重要方法就是分类,在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一种类别,这就是分类的概念。在分类过程中,通常通过构建分类器来实现具体分类,分类器是对样本进行分类的方法统称。一般情况下,分类器构建需要经过以下4步:①选定包含正、负样本在内的初始样本集,所有初始样本分为训练与测试样本;②通过针对训练样本生成分类模型:③针对测试样本执行分类模型,并产生具体的分类结果:④依据分类结果,评估分类模型的性能。在评估分类模型的分类性能方面,有以下两种方法可用于对分类器的错误率进行评估:①保留评估方法。通常采用所有样本集中的2/3部分样本作为训练集,其余部分样本作为测试样本,也即使用所有样本集中的2/3样本的数据来构造分类器,并采用该分类器对测试样本分类,评估错误率就是该分类器的分类错误率。这种评估方法具备处理速度快的特点,然而仅用2/3 样本构造分类器,并未充分利用所有样本进行训练。②交叉纠错评估方法。该方法将所有样本集分为N个没有交叉数据的子集,并训练与测试共计N次。在每一次 训练与测试过程中,训练集为去除某- 个子集的剩余样本,并在去除的该子集上进行N次测试,评估错误率为所有分类错误率的平均值。一般情况下,保留评估方法用于最初试验性场景,交叉纠错法用于建立最终分类器。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3