数据分析(二):数据清洗步骤

您所在的位置:网站首页 python数据整理清洗 数据分析(二):数据清洗步骤

数据分析(二):数据清洗步骤

#数据分析(二):数据清洗步骤| 来源: 网络整理| 查看: 265

一. 数据分析的步骤

数据分析的步骤分为5步:数据清洗,构建模型,数据可视化

一. 理解数据

整体上理解数据集中的的数据字段意义,需要理解数据集的数据类型:文本型,数值型,逻辑性,错误值

二. 数据清洗

数据清洗也叫做数据预处理,一般进行数据清洗需要通过通过7个步骤进行处理: 选择子集,列名重命名,删除重复值,缺失值处理,一致化处理,数据排序处理,异常值处理

2.1 选择子集

即选择需要进行分析的数据集中的数据列,为避免干扰可对其他不参与分析的数列进行隐藏处理

2.2 列名重名命

若数据集中出现同样列名称,或含义相同的两个列名,为避免干扰分析结果则需要针对某一个数据列的列名进行重命名

2.3 删除重复值

删除数据中的重复数据值,注意只会保留重复数据的第一条数据

2.4 缺失值处理

原始数据中可能会出现数据值缺失,即数据集中存在无数据的数据单元格。在数据分析时会影响结果,需要将缺失的数据值进行补全。 可人工手动一次性补全缺失值:首先通过定位条件查找的方式,查找到缺失值。然后Ctrl选中所有缺失值,在公式输入框输入对应内容,使用Ctrl+Enter可补全选中的缺失值

2.5 一致化处理

数据集中会存在某一个数据列的数据至标准不一致或命名规则不一致的情况,可以使用分列功能将不一致的数据列中的数据值进行拆分

2.6 数据值函数应用

对列数据集中的数据进行筛选排序,升序,降序排列等函数的应用

LEN(字符串所在单元格的位置),获取整个字符串的长度,例如LEN(A2)=6

Find(要查找的字符串,字符串所在单元格的位置),例如查找"k"的位置,通过Find("k",A2)=2,即k在字符串中的位置是2

Left/Right(字符串所在单元格位置,从左/右开始到某个位置进行字符串截取),例如截取最低薪水"7",通过与函数Find的结合应用,Left(A2,Find("k",A2)-1)=7

Mid(字符串所在单元格位置,起始位置,截取长度),例如截取最高薪水"9",通过MID(A2,FIND("-",A2)+1,LEN(A2)-FIND("-",A2)-1)=9

2.7 异常值处理

即数据处理模式,Split(数据分组)-Apply(函数应用)-Combine(组合结果)。数据的组合结果,对清洗后的数据进行分析,应用到数据透视表。需要了解的函数的应用公式Average,Sun,Max,Min,Date,If,Or,Countif

例如要用数据透视表统计数据集中数据分析岗位的相关的数量:选择插入——>数据透视表生成新的工作表,选择职位名称拖动到行和值的区间,生成职位的数据透视表,再通过筛选排序汇总出职位数量最高的职位名称“数据分析师”

通过函数IF,COUNT,FIND 对职位名称进行数据处理,清洗出符合数据分析师岗位的数据集

运用函数公式IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否"),筛选出数据集中为"是"的数据分析师相关职位数据集

三. 构建模型

还是以招聘数据为例,提出哪个城市的找到数据分析的工作机会比较大的问题?创建城市的数据透视表,筛选出不同城市对数据分析职位的工作年限要求排名,通过右键选择列汇总百分比,数据按照百分比的形式进行展示。

使用Excel的分析工具库,生成平均薪水的描述统计,且针对行(城市),值(平均薪水)建立数据透视表,获得不同城市的平均薪水数据指标

三. 日期数据字段处理

日期数据的处理:先通过"分列"以及"设置单元格格式"的对日期数据进行一致化处理,

之后生成数据透视图,通过对透视图的日期数据右键进行组合操作,可统计出年,月,周,日数据

关于针对日期数据的数据分析更详细的内容可参考链接的文章

四. 多表关联查询Vlookup的使用

4.1 vlookup函数

找什么,在哪找,第几列,是准确的找还是近似的找。以三好学生表,学生信息表为例,问题:要通过vlookup,找到学生信息表中三好学生的所在的班级。

使用应用函数vlookup

精确查找:若有多个值满足查找条件,只会显示查找到的第一条数据,所以如何查找重复值。通过添加辅助列,用姓名+学号进行相对引用的形式输入内容,例如猴子001=C2+B2,

再通过使用vlookup改变表2要查找的区域,并重新设置表2要查找的位置参数,以及查找的方式为"0"模糊查。这样就可以区分出同一个姓名不同的班组

4.2 对数据进行分组

有两组数据,但缺少消费分组的数据。使用vlookup对数据进行分组处理。选中C2单元格,插入函数vlookup,选择表1的数据列,表2的区域(注意要绝对引用,获取表2数据的位置,查找方式),即可对当前月份的消费水平根据表2进行消费分组

五. 引用方式

5.1 相对引用:A1

绝对引用:$A$1:C2=B2+$F$1.使用绝对饮用后,向下拖动数据后,下方数据自动+F1,即F1的数据会被固定默认与B2~BN的数据进行相加

5.2 混合引用:$A1 A$1

五. 总结

本章内容主要从Excel工具的角度,对数据进行分析需要的基本步骤进行概述。内容较为繁杂,后期会对内容进行多个子章节的内容详细分析

文中内容补充:

=DATEDIF(出生时间,购买时间,”M”)计算购买时的月份“M”月份,“Y”年份,“D”天

=IFERROR(DATEDIF(I5,G5,"M"),"错误"):如果返回错误值,显示“错误”



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3