基于R 语言并运用Pearson系数进行相关性分析

您所在的位置:网站首页 pearson相关性r值与p值怎么报告 基于R 语言并运用Pearson系数进行相关性分析

基于R 语言并运用Pearson系数进行相关性分析

2024-03-16 20:17| 来源: 网络整理| 查看: 265

基于R 语言并运用Pearson系数进行相关性分析 经统1601XXX 2019/12/30 1.问题的界定

股价波动的主要原因是股票的供求关系的变化。而使股票的供求关系发生变化的因素,主要来自于以下几个方面:影响股价变动的国内外政治活动以及政府对股市发展的政策、措施、法令等的制定和变化的政治性因素、物价波动与经济景气循环的经济性因素、利率和汇率变化引起的财政金融性因素、公司经营状况变动而造成的公司性因素和因为市场消息导向而形成的市场性因素。这么多的因素变化均能导致股价的波动,或是轻微或是强烈。本文将重点研究市场消息对股价的影响变化程度,在这之前,我们需要能够知道到底哪些市场消息是有效的,哪些无效的。

2.解决思路

为了回答这个问题,需要遍历每个变量并将其都与股价的波动进行相关性分析。在数据集足够大并且计算力足够的情况下不失为一个好办法,但是本文在此希望能够运用小量数据集来推测出股价与特定市场消息的相关性。因此本文将会先以“贵州茅台”这支股价的每日的收盘价为例,将其与“茅台”,“茅台酒”,“茅台股价”和“贵州茅台”这四个关键词的对应当日的百度指数进行相关性分析。由此来找出在这样一个特定的范围中,与股价收盘价最具相关性的因素。

3.变量选择、数据来源说明以及数据整理

对于变量的选择,因为在这里本文将要运用的是Pearson(Pearson相关系数)来进行相关性分析,所以要选择适用于该方法的变量,即符合连续分布或正态分布的变量。而且这个变量又要与股价收盘价这项数据相互独立。因此,本文的自变量将会选择百度指数这个数据分析平台上的数据,它既是符合Pearson要求的连续型变量,其分布当然也是遵循正态分布。 至于为何会选择贵州茅台这一支股票呢?原因是贵州茅台是最近的一支牛股,其股价的波动很大并且与其相关的搜索热度很高,其关键词的数据也极为丰富,所以在百度指数上的关键词波动相对于其他的股票的波动较为显著,这更有利于进行相关性分析。 作为本文因变量的贵州茅台的股价数据来源于Tushare,Tushare是一个开放的,免费的平台,不带任何商业性质和目的的开源数据平台,其数据内容包含股票、基金、期货、债券、外汇、行业大数据,同时包括了数字货币行情等区块链数据的全数据品类的金融大数据平台,为各类金融投资和研究人员提供适用的数据和工具。作为自变量的关键词:“茅台”、“茅台酒”、“茅台股价”和“贵州茅台”的指数来源于百度指数,百度指数是以百度海量网民行为数据为基础的数据分享平台。在这里,你可以研究关键词关注趋势、洞察网民需求变化、监测媒体舆情趋势、定位数字消费者特征。还可以从行业视角,分析市场特点、洞悉品牌表现。股价数据在Tushare提供的R语言接口中已经整理规范(来张图表),从下图可以看到因为股票的收盘价对应的日期只有周一到周五,而整理出来的百度指数的日期则是每日变化,所以本文利用基姆拉尔森计算公式计算出该百度指数的日期是否是周末,如果是周末则在百度指数的数据框中剔除,以此来保证能够对齐数据,从而方便进行接下来的数据分析。

#通过Tushare获取贵州茅台的股价数据 #获取数据并保存至csv文件 #bar


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3