python数据采集概述 |
您所在的位置:网站首页 › Python采集数据环境数已达最大 › python数据采集概述 |
1.数据: “所有的数字都是数据”,“图片、字母、文字等都是数据”,只要承载了一定的信息,这些数字、图片、文本、声音等都可以认为是数据。没有承载信息的数字是不能作为数据的,认识清楚这个问题,是踏入大数据之门的第一步。 2.常用的数据格式: HTML、Json、XML、txt、csv、doc、XLS、PDF 3.大数据生命周期: 4.数据采集方法: 大数据环境下数据来源非常丰富且数据类型多样,存储和分析挖掘的数据量庞大,对数据展现的要求较高,并且很看重数据处理的高效性和可用性。从采集方法上,大致分为离线采集、实时采集、互联网采集和其他采集。 (1)离线采集 工具:ETL 在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的抽取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。 5.脏数据 脏数据即数据不完整有缺失、存在错误和重复的数据,数据存在不一致和冲突等缺陷 6.数据清洗 广义上,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩余的数据转换成可接收的标准格式的过程; 狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为是数据清洗 数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或应用要求的数据 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |