实用统计分析(二)使用Excel完成基础数据分析

您所在的位置:网站首页 发热人员处置方案怎么写好 实用统计分析(二)使用Excel完成基础数据分析

实用统计分析(二)使用Excel完成基础数据分析

#实用统计分析(二)使用Excel完成基础数据分析| 来源: 网络整理| 查看: 265

Excel是使用最广泛的数据媒介,不仅功能强大,而且操作简洁。对于基本的数据处理与分析,Excel完全能满足我们的使用需求。Excel的操作方式多样,不同的人使用习惯也不同,本文主要介绍Excel在数据处理与分析中的一般性操作。

1        检查数据

在开始分析工作之前,应仔细检查和认识数据。在表格的第一行存放变量名(如图 1蓝色部分),第一列存放主键(如图 1黄色部分),主键的内容是表格中每一行的标识,具有唯一性;表格主体内容为变量取值(如图 1白色部分)。分类变量通常是定性描述,其中名词性的描述不可排序,序数词性的描述可排序,但并不能知道序号间差值的具体含义。数量变量是定量描述,都可以进行排序,也知道变量差值的具体含义,其中离散值与比率值的差异在于值为0是否有具体含义。

图 1  数据分类

可以注意到Excel表格中,单元格录入内容若为文本,其自动是左对齐的,若为数值,其自动是右对齐的,其他大多分析软件也是如此,建议不要修改它,以醒目区分。认识变量是为更好的绘图(表格的另一种呈现方式),图 2是一组有8个变量的数据,绘制成了对应的分组柱状图(如图 3),对于分类变量,首先用Protein变量分为3个大组,每个大组中有Genotype变量对应的4个小组,Treatment变量对应的2个小组,Behavior变量对应的8个小组;对于数值变量,N Total、Max、Min没有画成图形,直接列出取值,将Mean绘制成了带有数据标签的柱状图,并按Treatment变量用两种颜色区分。

图 2  Mice Protein Expression数据图 3  Mice Protein Expression分组柱状图

2        快捷操作

快捷键是置换鼠标点击、加速操作的常用方式,图 4给出了一些常用快捷键。实际应用中我们不需要掌握全部的快捷键,只需要我们在进行大量重复性操作时,有寻找简便途径的意识。当数据有很多行时,Ctrl + PageUp/PageDown能快速切换到行首或行末,Ctrl + Shift + PageUp/PageDown能在切换的同时选中单元格内容;当需要进行相同元素删除时,利用查找替换功能即可快速完成。

注:在菜单栏,功能描述括号内的字母加Ctrl键即为快捷键,如图 5,查找快捷键为Ctrl + F,替换快捷键为Ctrl + R;部分键盘F1~F10输入方式为Fn + F1~F10。

图 4  Excel常用快捷键图 5  查找和替换3        数值计算

数值计算是数据分析的必然步骤,在Excel中,利用公式和数据透视表可完成大量数值计算。Excel中有预置的公式和数据透视表教程,点击文件-新建-选择公式或数据透视表-创建即可打开。

图 6  Excel内置教程

公式使用方法如图 7。等号加使用的公式(函数)名,在括号中输入公式的参数,公式输入完毕后按下Enter键即可得到计算结果。

图 7  Excel公式构成

在正态分布假设检验中,我们使用到的公式是NORM.DIST(x,mean,standard_dev,cumulative)

其中X是需要计算其分布的数值;Mean是分布的算术平均值;Standard_dev是分布的总体标准偏差;Cumulative是逻辑值,决定函数的形式。如果 cumulative 为 TRUE,则 NORMDIST 返回累积分布函数,如果为 FALSE,则返回概率密度函数。

如:假设总体服从均值为40,方差为1.5的正态分布,现取得一样本,样本均值为42,该样本能代表总体吗?

在单元格中输入“=1-NORM.DIST(42,40,1.5,TRUE)”可计算得到样本均值42对应的P值,结果为0.091,即犯第一类错误的概率为9.1%,较之常用的置信度5%,该样本是不太理想的。此处计算的P值为1减样本均值在CDF中的函数值,具体可参见实用统计分析(一)概率论与数理统计基础。

公式的使用可根据需求,在Excel函数中查找对应函数实现计算,如图 8。当基础公式不能满足计算需求时,需要利用基本函数,分步骤计算,或嵌套基本公式,构造需要的函数,图 9示例了构造嵌套公式,实现计算1933~1968年的最大值。

图 8  Excel菜单栏公式选项卡图 9  嵌套公式示例

数据透视表是Excel中最常用的统计功能,与其相似的统计功能还有分类汇总。图 9中的示例主要问题在于数据不规范,需要构造嵌套公式计算,若数据符合本专栏第一节所述,即主键为1933~1968年的日历过程序列,第一行为1933~1968年,可通过数据透视表轻松实现计算。

4        数据绘图

可视化是数据统计分析的直观呈现,好的可视化能让数据分析锦上添花。随着Excel的版本迭代,其支持的图表类型和定制功能也越来越多,通过选中数据,点击插入图表,可提供大量的可视化图表预览。数据绘图的难点在于选择恰当的图表类型,然后对图表进行美化,这是一个需要反复试验的过程。图 11提供了一个探索数据可视化形式的一般过程,可供在反复试验时寻找思路。

图 10  Excel支持的图表类型图 11  数据可视化的探索过程

以上内容基于Excel家庭和学生版2019,部分功能与早期版本略有不同。Excel的定位是数据报表,对于更高需求的统计分析计算和数据可视化,需要专业的数据分析与绘图软件,如R、Python、SPSS、Origin、PAST等,在Excel中完成基础数据处理后,建议另存为.csv文件(逗号分隔符),再导入上述专业软件,进行下一步分析。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3