数据科学概念普及:什么是数据清洗?

您所在的位置:网站首页 数据清洗原理是什么 数据科学概念普及:什么是数据清洗?

数据科学概念普及:什么是数据清洗?

2024-05-09 14:48| 来源: 网络整理| 查看: 265

数据清洗就是对收集整理的原始数据进行必要的审查、校验和加工处理,把“脏”的数据“清洗掉”,发现并纠正数据文件中的可识别错误,提高数据质量,以便数据可以更好地用于后续分析过程。数据清洗是数据统计分析或开展机器学习项目整个过程中不可缺少的一个环节,其结果质量直接关系到分析效果和最终结论。数据清洗概念示意图如图1.1所示。

图1.1 数据清洗概念示意图

数据是分析的基础。无论是开展数据统计分析,还是开展机器学习项目进行数据挖掘与建模,亦或是实现数据可视化,都离不开数据。特征是所有机器学习项目中必不可少的组成部分,是机器学习项目的基础。当给定数据和特征时,数据统计分析的效能或机器学习项目所能达到的泛化能力的上限就确定了,所能解决的问题范围也就确定了。业界流传的一种观点是,用于分析的数据、特征决定了数据统计分析或机器学习效能的上限,各种统计分析方法、各种模型和算法的优化改进只是逼近这个上限而已。因此,提升数据、特征的质量至关重要。

数据清洗的必要性在于原始数据存在着较多的瑕疵,那些直接从内外部获取的信息、自然收集或生产系统自然生成的数据,在未进行必要的加工整理之前,并不能够满足直接分析或建模的需求。数据清洗的主要内容包括数据读取、合并、写入,数据检索,数据行列处理,处理数据缺失值、重复值和异常值,制作数据透视表,开展描述性分析和交叉表分析等。

上述内容节选自《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。

如果只是想学会数据分析用来开展工作实践,而不是走研究数据分析理论方法的科研学术路线,那么其实不需要太多数学,更重要的是掌握一门编程语言,用编程语言帮助大家实现数学计算就可以。市面上很多关于数据分析的书之所以难学、让大家学不进去,根本原因就是数学推导太多,而且与编程语言学习结合的并不充分。

根据我多年的教学经验,大家无论是学数据分析中的机器学习还是统计学计量经济学,都建议结合着具体的软件或编程语言来学,对于不想走纯科研路线或者想成为理论大牛的大多数朋友来说,不建议过多研究数学公式,而是应一边学习知识原理,一遍上手操作,不然就会在复杂的数学公式推导面前耗尽了所有的学习热情。

针对数据分析或机器学习推荐两本入门级的图书:《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)。这两本书的特色是在数据分析、机器学习各种算法的介绍方面通俗易懂,较少涉及数学推导,对数学基础要求相对不高,在python代码方面讲的很细致,看了以后根据自身需要选取算法、优化代码、科学调参。

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)内容非常详实,包含了Python和机器学习,相当于一次获得了两本书。在讲解各类机器学习算法时,逐一详解用到的各种Python代码,针对每行代码均有恰当注释(这一点基本上是大多数书目做不到的)。《Python机器学习原理与算法实现》一书创作完成后,在正式出版之前,已经开发成一套系统课程,分9次授课,在某全国性股份制商业银行内部开展了培训,490人根据行内组织统一学习,授课完成后放在知鸟平台供回放学习,9次课程累计回放量近3万次,得到参训学员的一致好评,广泛应用于各位学员的工作实践。(所以,这是一本避雷避坑、已经被亲测可行的网红书,只要用心学,都没问题哦)

《Python机器学习原理与算法实现》(杨维忠 张甜 著 2023年2月新书 清华大学出版社)

《Python数据科学应用从入门到精通》一书,旨在教会读者实现全流程的数据分析,并且相对《Python机器学习原理与算法实现》一书增加了很多概念性、科普性的内容,进一步降低了学习难度。全书内容共分13章。其中第1章为数据科学应用概述,第2章讲解Python的入门基础知识,第3章讲解数据清洗。第4~6章介绍特征工程,包括特征选择、特征处理、特征提取。第7章介绍数据可视化。第8~13章介绍6种数据挖掘与建模方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。从数据科学应用和Python的入门,再到数据清洗与特征工程,最终完成数据挖掘与建模或数据可视化,从而可以为读者提供“从拿到数据开始,一直到构建形成最终模型或可视化报告成果”的一站式、全流程指导。

《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)

两本书随书赠送的学习资料也很多,包括全部的源代码、PPT、思维导图,还有10小时以上的讲解视频,每一章后面还有练习题及参考答案,还有学习群,相对于只看网络上的视频,一方面更加系统、高效,另一方面照着书一步步操作学起来也事半功倍。全网热销中,当当、京东等平台搜索“Python机器学习 杨维忠”“Python数据科学 杨维忠”即可。

《Python机器学习原理与算法实现》(杨维忠、张甜著,2023年2月,清华大学出版社),适用于学习Python/机器学习

《Python数据科学应用从入门到精通》(张甜 杨维忠 著 2023年11月新书 清华大学出版社)适用于学习数据分析、数据科学、数据可视化等。

创作不易,恳请多多点赞,感谢您的支持!也期待大家多多关注我,让我共同学习数据分析知识。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3