数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

您所在的位置：网站首页 › 数据挖掘的预测建模任务不包括哪类问题 › 数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

2024-07-03 08:17| 来源: 网络整理| 查看: 265

在数据挖掘的发展过程中，由于数据挖掘不断地将诸多学科领域知识与技术融入当中，因此，目前数据挖掘方法与算法已呈现出极为丰富的多种形式。从使用的广义角度上看，数据挖掘常用分析方法主要有分类、聚类、估值、预测、关联规则、可视化等。从数据挖掘算法所依托的数理基础角度归类，目前数据挖掘算法主要分为三大类:机器学习方法、统计方法与神经网络方法。机器学习方法分为决策树、基于范例学习、规则归纳与遗传算法等:统计方法细分为回归分析、时间序列分析、关联分析、聚类分析、模糊集、粗糙集、探索性分析、支持向量机与最近邻分析等:神经网络方法分为前向神经网络、自组织神经网络、感知机、多层神经网络、深度学习等。在具体的项目应用场景中通过使用上述这些特定算法，可以从大数据中整理并挖掘出有价值的所需数据，经过针对性的数学或统计模型的进一步解释与分析，提取出隐含在这些大数据中的潜在的规律、规则、知识与模式口。下面介绍数据挖据中经常使用的分类、聚类、关联规则与时间序列预测等相关概念。

数据挖掘方法中的一种重要方法就是分类，在给定数据基础上构建分类函数或分类模型，该函数或模型能够把数据归类为给定类别中的某一种类别，这就是分类的概念。在分类过程中，通常通过构建分类器来实现具体分类，分类器是对样本进行分类的方法统称。一般情况下，分类器构建需要经过以下4步:①选定包含正、负样本在内的初始样本集，所有初始样本分为训练与测试样本;②通过针对训练样本生成分类模型:③针对测试样本执行分类模型，并产生具体的分类结果:④依据分类结果，评估分类模型的性能。在评估分类模型的分类性能方面，有以下两种方法可用于对分类器的错误率进行评估:①保留评估方法。通常采用所有样本集中的2/3部分样本作为训练集，其余部分样本作为测试样本，也即使用所有样本集中的2/3样本的数据来构造分类器，并采用该分类器对测试样本分类，评估错误率就是该分类器的分类错误率。这种评估方法具备处理速度快的特点，然而仅用2/3 样本构造分类器，并未充分利用所有样本进行训练。②交叉纠错评估方法。该方法将所有样本集分为N个没有交叉数据的子集，并训练与测试共计N次。在每一次训练与测试过程中，训练集为去除某- 个子集的剩余样本，并在去除的该子集上进行N次测试，评估错误率为所有分类错误率的平均值。一般情况下，保留评估方法用于最初试验性场景，交叉纠错法用于建立最终分类器。

【本文地址】

数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

数据挖掘常用算法有哪些？分类、聚类、预测、关联规则

今日新闻

推荐新闻