MATLAB用改进K

您所在的位置：网站首页 › copula怎么读 › MATLAB用改进K

MATLAB用改进K

2023-06-02 14:18| 来源: 网络整理| 查看: 265

全文链接：http://tecdat.cn/?p=30832

最近我们被客户要求撰写关于K-Means(K-均值)聚类算法的研究报告，包括一些图形和统计输出。

本文首先阐明了聚类算法的基本概念，介绍了几种比较典型的聚类算法，然后重点阐述了K-均值算法的基本思想，对K-均值算法的优缺点做了分析，回顾了对K-均值改进方法的文献，最后在Matlab中应用了改进的K-均值算法对数据进行了分析

常用的聚类算法

常用的聚类算法有：K-MEANS、K-MEDOIDS、BIRCH、CURE、DBSCAN、STING。

主要聚类算法分类

类别包括的主要算法划分的方法K-MEANS算法（K平均）、K-MEDOIDS算法（K中心点）、CLARANS算法（基于选择的算法）层次的方法BIRCH算法（平衡迭代规约和聚类）、CURE算法（代表点聚类）、CHAMELEON算法（动态模型）基于密度的方法DBSCAN算法（基于高密度连接区域）、DENCLUE算法（密度分布函数）、OPTICS算法（对象排序识别）基于网络的方法STING算法（统计信息网络）、CLIQUE算法（聚类高维空间）、WAVE-CLUSTER算法（小波变换）基于模型的方法统计学方法、神经网络方法

聚类算法的性能比较

聚类算法适合数据类型算法效率发现的聚类形状能否处理大数据集是否受初始聚类中心影响对异常数据敏感性对输入数据顺序敏感性K-MEANS数值型较高凸形或球形能是非常敏感不敏感K-MEDOIDS数值型一般凸形或球形否否不敏感不敏感BIRCH数值型高凸形或球形能否不敏感不太敏感CURE数值型较高任意形状能否不敏感不太敏感DBSCAN数值型一般任意形状能是敏感敏感STING数值型高任意形状能否一般不敏感

由表可得到以下结论：1)大部分常用聚类算法只适合处理数值型数据；2)若考虑算法效率、初始聚类中心影响性和对异常数据敏感性,其中BIRCH算法、CURE算法以及STING算法能得到较好的结果；3)CURE算法、DBSCAN算法以及STING算法能发现任意形状的聚类。

改进聚类的主要步骤

聚类的主要步骤由以下几个方面组成：

（1）数据预处理：根据聚类分析的要求，对输入数据集进行特征标准化及降维等操作。

（2）特征选择及特征提取：将由数据预处理过程得到的最初始的特征中的最有效的特征选择出来，并将选取出来的最有效特征存放于特定的向量中，然后对这些有效特征进行相应的转换，得到新的有效突出特征。

（3）聚类（分组）：根据需要选择合适的相似性度量函数对数据集中的数据对象相似程度进行度量，以此进行数据对象的聚类（分组）。

（4）对聚类结果进行评估：依据特定的评价标准对聚类的结果进行有效评估，评估聚类结果的优劣，以此对聚类分析过程进行进一步的改进和完善。

聚类的主要步骤可以用图来表示。

点击标题查阅往期内容

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

左右滑动查看更多

改进聚类分析中的数据类型及聚类准则函数

聚类算法的数据结构：数据矩阵、相异度矩阵。

相异度矩阵：相异度矩阵用来存储的是实体之间的差异性，n个实体的相异度矩阵表示为 n×n维的矩阵，用d(A,B)来表示实体A与实体B的相异性，一般来讲，是一种量化的表示方式，则含有n个实体的集合X={x1,x2,…,xn}的相异度矩阵表示如下：

d(i,j)表示对象i和j之间的相异性的量化表示，通常它是一个非负的数值，当对象i和j 越相似或接近，其值越接近0；两个对象越不同，其值越大。并且有d(i,j)=d(j,i)，d(i,i)=0。目前最常用的的相似性度量函数为欧式距离。

在MATLAB中应用K-MEANS算法数据的预处理

本研究的数据是某高校学生的期末考试成绩，成绩表包括以下字段：x1为“电子商务”科目成绩，x2为“C语言概论”科目基础知识。其中，数据已经经过标准化和中心化的预处理：

（1）补充缺失值。对退学、转学、休学、缺考造成的数据缺失采用平均值法，以该科目的平均分数填充。

（2）规范化数据。运用最小-最大规范化方法对数据进行规范化处理，将数据映射到[0,1]区间，计算公式如下：

过程及结果分析

（1）读取数据

选择MATLAB的Data.mat，通过ImpoMatlabt Files，将所有数据读入。

load('data1.mat')k = 6;figure;%数据标准化data = zeros(size(data1));[data(:,1) me(1) va(1)] = dataNormalization(data1(:,1))

（2）K-Means 模型设置

1）NumbeRs of clusteR：制定生成的聚类数目，这里设置为3.

2）定义了分割数据集，选择训练数据集作为建模数据集，并利用测试数据集对模型进行评价。

[idx c] = kmeansOfMy(data,k);c = dataRecovery(c,me,va);%画出各个区域中的散点count = 0;for i = 1 : k if i == 1 plot(data1(idx == i,1),data1(idx == 1,2),'r*'); elseif i == 2 plot(data1(idx == i,1),data1(idx == i,2),'g*'); elseif i == 3

（3）执行和输出

设置完成后，选中Execute 按钮，即可得到改进聚类执行并观察到结果。

%kOfVertex = randKOfVertex(k);kOfVertex = electedInitialCentroid(k);for i = 1 : size(data,1) index(i) = minOfDistans(i,kOfVertex);

可以以图表的形式来显示模型的统计信息以及各个属性在各簇中的分布信息，结果如下图所示。

（4）聚类结果

结果表明：簇1中的学生都是考试成绩中等的，簇2中的学生考试成绩较高，簇2中的学生考试成绩较差，可见，大部分学生的期末考试成绩处于中等水平；各变量在各簇中的显著程度均较大，表明学生对各科目的学习分化程度较高，差异显著。

参考文献

[1] 贺玲, 吴玲达, 蔡益朝. 数据挖掘中的聚类算法综述[J]. 计算机应用研究, 2007(1).

[2] 蒋帅. K-均值聚类算法研究[D]. 陕西师范大学, 2010.

[3] 周涓, 熊忠阳, 张玉芳, 等. 基于最大最小距离法的多中心聚类算法[J]. 计算机应用, 2006, 26(6).

[4] A.K.Jain, MATLAB.C.Dubes. AlgoMatlabithms foMatlab ClusteMatlabing Data [J]. PMatlabentice-Hall Advanced MATLABefeMatlabence SeMatlabies, 1988(1).

点击文末 “阅读原文”

获取全文完整代码数据资料。

本文选自《MATLAB数据挖掘用改进的K-Means(K-均值)聚类算法分析高校学生的期末考试成绩数据》。

点击标题查阅往期内容

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标数据分享|R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况R语言是否对二分连续变量执行逻辑回归R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险R语言用局部加权回归(Lowess)对logistic逻辑回归诊断和残差分析R语言用主成分PCA、逻辑回归、决策树、随机森林分析心脏病数据并高维可视化R语言用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值R语言Bootstrap的岭回归和自适应LASSO回归可视化R语言中回归和分类模型选择的性能指标R语言多元时间序列滚动预测：ARIMA、回归、ARIMAX模型分析R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据R语言计量经济学：虚拟变量(哑变量)在线性回归模型中的应用R语言线性混合效应模型实战案例R语言混合效应逻辑回归（mixed effects logistic）模型分析肺癌数据R语言如何用潜类别混合效应模型（LCMM）分析抑郁症状R语言基于copula的贝叶斯分层混合模型的诊断准确性研究R语言建立和可视化混合效应模型mixed effect modelR语言LME4混合效应模型研究教师的受欢迎程度R语言线性混合效应模型实战案例R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）R语言基于copula的贝叶斯分层混合模型的诊断准确性研究R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题基于R语言的lmer混合线性回归模型R语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型R语言分层线性模型案例R语言用WinBUGS 软件对学术能力测验（SAT）建立分层模型使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLMR语言用WinBUGS 软件对学术能力测验建立层次（分层）贝叶斯模型SPSS中的多层（等级）线性模型Multilevel linear models研究整容手术数据用SPSS估计HLM多层（层次）线性模型模型R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例R语言有RStan的多维验证性因子分析（CFA）主成分分析(PCA)原理及R语言实现及分析实例R语言无监督学习：PCA主成分分析可视化R语言使用Metropolis- Hasting抽样算法进行逻辑回归R语言多元Logistic逻辑回归应用案例R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测R语言基于树的方法：决策树，随机森林，Bagging，增强树spss modeler用决策树神经网络预测ST的股票R语言中自编基尼系数的CART回归决策树的实现python在Scikit-learn中用决策树和随机森林预测NBA获胜者matlab使用分位数随机森林（QRF）回归树检测异常值基于随机森林、svm、CNN机器学习的风控欺诈识别模型R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例R语言用标准最小二乘OLS，广义相加模型GAM ，样条函数进行逻辑回归LOGISTIC分

【本文地址】

MATLAB用改进K

MATLAB用改进K

今日新闻

推荐新闻