R语言主成分pca、因子分析、聚类对地区经济研究分析重庆市经济指标

您所在的位置:网站首页 消费品零售价格指数计算例题 R语言主成分pca、因子分析、聚类对地区经济研究分析重庆市经济指标

R语言主成分pca、因子分析、聚类对地区经济研究分析重庆市经济指标

2023-04-27 22:01| 来源: 网络整理| 查看: 265

称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。因子分析步骤如下:

(1)将原始数据标准化,仍记为X;(2)建立相关系数矩阵R;(3)解特征方程,计算特征值和特征向量,当累计贡献率不低于85%时,提取k个主成分代替原来的m个指标,计算因子载荷矩阵A;(4)对A进行最大正交旋转交换;(5)对主因子进行命名和解释。如需进行排序,则计算各个主因子的得分,以贡献率为权重,对加权计算综合因子得分。

样本选取及数据来源

本文选取了重庆市38个区县作为样本进行分析,目的在于探索如何基于R统计软件的因子分析和聚类分析方法研究地区经济发展。具体数据如下:

数据分析过程

将原始数据录入R软件中,选取地区生产总值(万元)(X1)、社会消费品零售总额(万元)(X2)、工业总产值(万元)(X3)、建筑业总产值(万元)(X4)、高技术生产总值(万元)(X5)、全社会固定资产投资(万元)(X6)、人均可支配收入(元)(X7)、人均地区生产总值(元)(X8)。

在进行因子分析之前,我们通过观察相关系数矩阵,并用KMO and Bartlett’s Test检验一下数据是否适合作因子分析。再做描述性分析Analysis-factor-description得到初始公因子方差、因子、特征值以及由每个因子解释的百分比和累计百分比。分析结果如下:

coebaltt(COR,)#Bartlett球形检

Bartlett 的球形度检验的p值(显著性概率值sig)86%,信息损失仅为10.146%,从第4个因子开始方差贡献率都低于5%,因此选取3个公因子进行因子分析效果较为理想;从图的碎石图可以看出从第4个因子开始,特征值差异变化很小,综上所述:在特征值大于0.5的条件下,所提取的三个因子能通过检验并能很好的描述8个指标,所以提取前3个特征值建立因子载荷矩阵。

表中为初始因子载荷矩阵表, F1、F2、F3分别作为第一、第二、第三公共因子。建立了因子分析数学目的不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析,如果每个公共因子的含义不清,则不便于进行实际背景的解释。由于因子载荷阵是不唯一的,所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化,使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。

因此需求进行因子旋转,使得因子对变量的贡献达到极化的效果。为此采用方差最大化的正交旋转方式,使各变量在某个因子上产生较高载荷,而其余因子上载荷较小,从而得到旋转后的因子载荷矩阵,如下表所示:

由表和旋转后的因子图可以看出,通过旋转后的公共因子的解释原始数据的能力提高了,表现为公共因子F1在X1(地区生产总值),X6(全社会固定资产投资)和X8(人均地区生产总值)上的载荷值都很大。因此我们可以把第一公共因子确立为综合经济实力因子,宏观上反映了地区经济发展规模的总体情况,在这个因子上的得分越高,说明城市经济发展的总体情况越好。

利用各公共因子方差贡献率计算综合得分,并计算综合得分=因子1的方差贡献率*因子1的得分+因子2的方差贡献率*因子2的得分+因子3的方差贡献率*因子3的得分。将数据按综合得分降序排列,得到部分因子得分和综合得分情况如下图所示:

结果讨论

基于上述因子得分,可以得出2012年重庆38个区县的经济发展状况如下:

1、根据经济实力因子F1得分大于1的依次有渝中区、渝北区、九龙坡区、江北区和万州区,分数分别为4.4211、1.8967、1.7808、1.201、1.2804。说明在经济总体规模和建筑业方面,渝中区、渝北区、九龙坡、江北区和万州区在重庆市的38个区县中是最好的,规模较大,经济实力最强,发展前景很好,经济发展实力雄厚的地区。

2、根据经济发展潜力因子F2得分大于1的有沙坪坝区和渝北区,分数分别为3.7052、3.4396。说明在高技术科技和工业方面比较发达,固定资产投资最大,这两个地区都在主城,对外开放程度高,科技创新方面比较好,有自己的工业发展,已基本形成了自己的产业结构,充分发挥了自己的地理优势和资源环境优势,发展潜力较大。

基于主因子得分的聚类分析

系统聚类分析

聚类分析又称群分析,就是将数据分组成为多个类。在同一个类内对象之间具有较高的相似度,不同类之间的对象差别较大。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。

聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等;最常用最成功的聚类分析为系统聚类法,系统聚类法的基本思想为先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其他类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。

系统聚类法的基本步骤:

1、计算n个样品两两间的距离。

2、构造n个类,每个类只包含一个样品。

3、合并距离最近的两类为一新类。

4、计算新类与各当前类的距离。

5、重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。

6、画聚类谱系图。

7、决定类的个数和类。

系统聚类方法:1、最短距离法;2、最长距离法;3、中间距离法;4、重心法;5、类平均法;6、离差平方和法(Ward法)。

基于主因子得分对重庆市38个区县经济发展分析,采用聚类方法选择组间链接法,计算距离选择平方欧式距离,标准化数据才用标准正太数据化处理。得到如下结果:

rct.st(hc,k = 6, border = "red")

由树状图可知,可以将重庆各区县按经济中和实力实际情况分为六类:

第一类只包括渝中区,渝中区是重庆市的中心城市,是重庆市的政治经济文化中心、基础教育高地、具有特殊的区位优势和突出的战略地位。产业结构的现状特征是第三产业占绝对优势,其中金融业、商贸业以及中介服务业为主导行业,属于经济发展实力雄厚的地区。

第二类只包括渝北区,渝北区先后启动了总体规划近65平方公里的重庆科技产业园、重庆现代农业园区、渝东开发区等项目,被市政府命名为"重庆农业科技园区",所以该地区在高技术生产总值贡献很大,而且投资环境优越,且大部分地区有个自己中心商业地带,对外开放程度高,区位优势很明显,产业结构合理,属于经济发展较强的地区。

最受欢迎的见解

1.matlab偏最小二乘回归(PLSR)和主成分回归(PCR)

2.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析

3.主成分分析(PCA)基本原理及分析实例

4.R语言实现贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归

5.使用LASSO回归预测股票收益数据分析

6.r语言中对lasso回归,ridge岭回归和elastic-net模型

7.r语言中的偏最小二乘回归pls-da数据分析

8.R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化

9.R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3