大数据导论

您所在的位置:网站首页 科学的技术化名词解释 大数据导论

大数据导论

2024-07-17 01:15| 来源: 网络整理| 查看: 265

1、名词解释

流处理与批处理

批处理:“静止数据”转变为“正使用的数据”,先存储后处理,先把信息存下来,稍后一次性处理掉;对于批量处理,多采用批处理;

流处理:“动态数据”转为正在使用的数据。直接处理,任务来一件处理一件,获得实时智能,速度快;

云存储

云存储是云计算概念上延申和发展出来的一个新的概念,是一种新兴的网络存储计算。云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问的一个系统;

NoSQL

泛指非关系型,分布式和不通过ACID的数据库设计模式,他不是单纯的反对关系型数据库,而是强调键值存储数据库和文档数据库的优点

数据仓库

一个面向主题的集成的,相对稳定的、反映历史变化的数据集合,用于支持管理决策

云计算

cloud computing,分布在大规模数据中心,能动态的提供各种服务器资源以满足科研、电子商务等领域需求的计算平台。简单来说,云计算是基于互联网相关服务的增加、使用和交付模式,通过互联网来提供一般为虚拟化的动态易扩展资源

狭义云计算指IT基础设施的交付和使用模式;广义云计算指服务的交付和使用模式;

云计算的核心思想:将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池,向用户按需服务;

大数据分析

大数据分析是大数据理念与方法的核心,是对海量增长快速、内容真实、类型多样的数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程

数据挖掘

DM,简单来说就是在大量的数据中提取或挖掘信息,通过仔细分析来揭示数据之间有意义的联系、趋势

2、简答

(1)人类社会的数据产生方式经历了哪些阶段?各阶段的特点?

运营式系统:数据库的出现使得数据管理的复杂度大大降低;

用户原创内容阶段:互联网的诞生,微博等新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈;数据产生是主动的;

感知式系统:人类社会数据量第三次大的飞跃最终导致了大数据的产生,感知系统的广泛使用。数据自动产生;

(2)大数据处理的关键技术有哪些?做简要概述?

主要包括:数据采集和预处理,数据存储,数据计算处理,数据分析和挖掘,数据可视化系统;

数据采集:通过RFID射频识别技术、传感器、交互型网络以及移动互联网等方式获得的各种类型的结构化、半结构化、非结构化的海量数据;

数据预处理:数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换等并最终加载到数据存储的过程;

数据存储:需要将采集到的数据进行存储管理,建立相应的数据库;

数据计算处理:分布式架构的计算平台;

数据分析与挖掘:基于商业目的,有目的的收集、整理、加工和分析数据,提炼有价值信息的一个过程;

大数据可视化技术:可以提供更为清洗直观的数据表现形式,将错综复杂是数据和数据之间的关系,通过图片、映射关系或表格呈现给用户;

(3)简述网络大数据的一般采集过程?

大数据采集主要包括:系统日志采集、网络数据采集,数据库采集和其他数据采集四种;

网络数据采集通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。

(4)解释为什么要进行数据预处理?

高质量数据是能够满足应用需求的数据,数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

不完整数据出现可能有多种原因:重复信息并非总是可以得到、用户输入时的遗漏等;不正确数据出现的原因有:收集数据的设备出现故障、计算机内部错误等;不一致数据:命名约定所用的数据代码不一致;以上因素影响数据的质量,低质量的数据导致质量挖掘效果,因此需要对数据进行预处理;

(5)大数据预处理技术有哪些?简要概述?

主流数据预处理技术:数据清洗、数据集成、数据变换、数据规约

1、数据清洗。数据清洗过程主要包括数据的缺省值处理、噪声数据处理、数据不一致处理。

2、数据集成。将多个数据源的数据合并放到一个一致的数据存储。其中数据源可以保护多个数据库。

3、数据变换:把原始数据转化为适合于数据挖掘的数据形式;

4、数据规约:尽可能保持数据源的前提下,组大限度的精简数据量保持数据原有状态。

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3