如何用Excel做数据分析

您所在的位置:网站首页 如何注册excelhome 如何用Excel做数据分析

如何用Excel做数据分析

#如何用Excel做数据分析| 来源: 网络整理| 查看: 265

一般来说,数据分析的步骤如下:

明确问题理解数据数据清洗数据分析 或 构建模型数据可视化

一个数据分析师是离不开Excel的,它是日常生活中最常用的,如果不考虑工作量的话,Excel是足够应付绝大部分的数据分析的。

人类的语言有不同的词汇,Excel语言也同样有不同的数据类型,不同数据类型在不同的场合下使用。Excel中有多种数据类型,一般可以归纳成下列的三种数据类型:

字符串类型(也称文本类型,一般是指汉字、字母等,此处注意,以字符串做数据类型的是不能用来计算的)数值类型(指整数、小数等)逻辑类型(描述一种条件的判断标准)

在默认情况下,字符串类型是左对齐,数字类型是右对齐。

一、数据清洗

数据清洗的步骤如下:

选择子集(选择你要数据分析感兴趣的几个列)列名重命名删除重复值缺失值处理一致化处理数据排序异常值处理

1、选择子集合

有时候我们拿到的数据太大,这时候,我们需要将一些我们不感兴趣、不需要的列隐藏起来。另外,我们也可通过全选表格、开始选项卡中的格式取消隐藏的行或列。我们通过对行列隐藏可以灵活的选择对研究对象的子集。

2、列名重命名

3、删除重复值

数据、删除重复项、取消全选

4、缺失值处理

原始数据经常由于如爬虫没有爬到等一些原因存在缺失的数据,我们需要对这些缺失值进行处理。首先要做的就是看一下有多少缺失值,接下来我们才是处理缺失值,一般使用四种方法处理缺失值:人工手动补缺(适用于缺失数据比较少的情况)、删除缺失的数据、用平均值代替缺失值、用统计模型计算代替缺失值。

5、一致化处理

一致化指的是数据是否有统一的标准或者命名。一般用Excel的分列功能进行一致化处理,将某一列按照特定的规格拆分,需要注意,分列功能会覆盖掉右列单元格,所以我们往往在分列前将需要分列的单元格粘贴在最后一列。再复制粘贴后,点击数据栏、分列功能弹出对话框、分隔符号、下一步、其他(使用什么符号进行分割)、连续分隔符号为单个处理、下一步、完成。

例如如下表格就可以通过分列功能达到想要的效果。

图片来自于知乎猴子

在上述操作中需要用到函数功能:

平均数

find函数(查找一个字符串,在另一个字符串中出现的起始位置):需要输入两个关键词,一个是“要查找的字符串”,另一个是要查找字符串所在单元格位置。

left函数(截取字符串):left(字符串所在单元格位置,从左边开始到某位置进行截取)

right函数(截取字符串):right(字符串所在单元格位置,从右边开始到某位置进行截取)

mid函数(截取字符串):mid(字符串所在单元格位置,开始位置,截取长度)

6、数据排序

7、异常值处理

对异常值处理一般用到数据透视表

数据透视表

数据透视表的原理是对数据分组(split)、应用函数(apply)、组合结果(combine)的实现。

二、数据分析 或 构建模型

多表关联查询Vlookup

如何使用Vlookup按条件查找数据

vlookup(找什么,在哪找,第几列,是准确查找还是近似查找)

注意:“在哪找”中,选中的全部数据中第一列数据是我们要查找的值所在的列。

”第几列“是指所选择的区域的列,并非整个数据表中的列。

准确找(一般来说都是准确找):0 近似匹配:1

当有重复数据的时候,如何利用辅助列查找重复数据如何利用Vlookup对数据分组Excel中三种引用:绝对引用($A$1)、相对引用(A1)、混合引用($A1 A$1)三、数据实战

以下数据来源于阿里巴巴云天池

共由两个表格数据组成,第一个为购买商品表,第二个为婴儿信息表。

1、明确问题

哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?

2、理解数据

3、数据清洗

首先,将数据另存为备份便于操作,以下操作皆在备份数据上操作。

(1)选择子集

这两个文档的子集都精简筛选此处不用操作

(2)列名重命名

将英文关键词改为中文关键词。

(3)删除重复值

表一中有重复值27项,进行了删除处理

表二中未发现重复值

(4)缺失值处理

通过分别选择每一列,发现表1中的除商品属性这一字段的行数有29803行外,其他字段的行数均为29945行,商品属性这一字段缺失数据有142行。

表2各字段均为954行,没有缺失值。

这里我们选择删除缺失值的方法对缺失值进行处理。

(5)数据格式一致化处理

两张数据表中都有日期数据,首先需要检查并处理其格式为“日期”格式。

利用数据-分列功能处理日期数据,使得变为规格化日期:

(6)多表关联

由于填写婴儿信息表数据的用户相对于表一中的用户来说特别少,故在解决和处理有关婴儿信息表数据时,直接在婴儿信息表中利用vlookup函数对表1、表2通过多表查询合并为统一的一张表格,并筛选出能够匹配的数据。

首先,在婴儿信息表中添加一列购买时间,用vlookup函数将表1中对应用户ID的购买时间vlookup到表2中:

添加字段:采用(购买日期-出生日期)/365的方法得出用户的年龄(需要注意的是:即使购买日期在出生日期之前也是符合业务实际的,可以将其划分为未出生)

4、数据分析建立模型

哪类产品的一级分类购买率最高,在这一类别中,最为畅销的又是哪一产品?

通过数据透视表可以发现,选择商品一级分类和购买数量这两个字段,得出商品一级分类28为购买率最高的商品

在得出商品一级分类28为购买率最高的产品的前提下,先通过数据筛选功能,筛选商品一级分类28的产品,再通过筛选功能得出商品一级分类28下的最畅销的二级分类商品是50012788。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3