数据清洗技术

您所在的位置:网站首页 报表数据处理中不包括的内容 数据清洗技术

数据清洗技术

2024-05-27 17:37| 来源: 网络整理| 查看: 265

数据清洗技术——Excel数据清洗 一、实验目的和要求二、实验环境三、实验内容和实验步骤

一、实验目的和要求

1、了解 Excel 的基本功能和用途 2、掌握 Excel 数据清洗的基本步骤 3、了解 Excel 数据清洗的方法 4、掌握 Excel 常用的数据分析函数 5、掌握 Excel 数据清洗常用的函数

二、实验环境

操作系统:Windows XP/7/8/10… Excel版本:2007/2019… JDK版本:1.7.0 Kettle版本:4.4.0 MySQL版本:8.0

三、实验内容和实验步骤

实验内容: 现有一个企业招聘职位信息的数据集,约有 5000条数据,客户提出需要了解数据分析师岗位情况,包括岗位分布和特点、能力要求、工资和薪酬等。由于数据集没有经过处理,所以表中的数据还很不规范,含有大量数据重复、缺失、单列数据粒度过大等问题,因此,在进行数据分析前,需要进行数据清洗操作,以使数据规范化。

实验步骤:

1、数据预览 拿到数据后,不要急着动手处理,先对数据集做总体的观察。如图 1-1 所示,可以看到,数据集表头由城市、公司名称、公司编号、公司福利、公司规模、经营区域、经营范围、教育程度、职位编号、职位名称、薪水和工作年限要求等属性组成。

在这里插入图片描述 数据整体较为规整,但通过初步观察,该数据集主要存在如下问题: (1)数据缺失 (2)数据不一致 (3)存在“脏”数据 (4)数据不规范

2、进行数据清洗 在 Excel 中新建一个工作表执行数据清洗,方便和原始数据区分开来。 (1) 清洗薪水数据 采用分列操作(数据-分列),以“-”为分隔符号,得到两列数据,将属性修改为最低薪水和最高薪水,如图所示。 在这里插入图片描述 在这里插入图片描述 然后,利用替换功能(开始-查找和选择-替换),删除 k 字符串和“以上”两个 字,结果如图 1-3 所示。在这里插入图片描述 在这里插入图片描述 (2) 分列操作 按照与薪水数据清洗类似操作,通过分列操作分别对公司福利、经营区域、 经营范围、职位标签等属性进行数据拆分。 在这里插入图片描述 在这里插入图片描述 (3)搜索替换不一致 公司名称的不一致的处理,只需要用搜索替换法删除即可。 职位名称的不一致处理可以单独针对职位名称进行数据透视表分析,统计出各名称出现的频次,具体操作如下。 步骤 1:选中职位名称列,在菜单栏中选择“插入”—“数据透视表”选项,然后单击“确定”按钮,在出现的数据透视表字段列表中,分别拖动“职位名称”到“行标签”和“Σ数值”中,结果如图 1-4 所示。出现次数为 3 次以下的职位名称,约有2000 个,采用关键词查找的方法,找到包含有“数据分析”、“分析师”、“数据运营”等关键词的岗位。 在这里插入图片描述 在这里插入图片描述 步骤 2:结合使用 FIND 和数组函数,得到多条件查找的结果。查找公式 为:=IF(COUNT(FIND({“数据分析”,“数据运营”,“分析师”},J2)),“1”,“0”),结果如图所示1为包含,0为不包含。将1过滤出来,就是需要的最终数据。 在这里插入图片描述 在这里插入图片描述 经过以上步骤的处理,数据集中的重复值得到清理,公司名称、职位名称部分的命名做了规范化处理,薪水范围拆分成两列处理等,数据集得到一定程度的清洗。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3