大数据简述

您所在的位置:网站首页 简述大数据 大数据简述

大数据简述

2023-07-17 04:42| 来源: 网络整理| 查看: 265

大数据简介

早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。最早应用“大数据”的是世界著名的管理咨询公司麦肯锡公司,它看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,对“大数据”进行收集和分析的设想,在2011年6月发布了关于“大数据”的报告,该报告对“大数据”的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。

大数据发展历程 第三次信息化浪潮 信息化浪潮发生标志解决问题代表企业第一次浪潮1980年前后个人计算机信息处理Inter第二次浪潮1995年前后互联网信息传输雅虎、谷歌、百度第三次浪潮2010年前后物联网、云计算和大数据信息爆炸阿里云、小米 大数据发展阶段 阶段时间内容第一阶段:萌芽 期上世纪90年代 至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批 商业智能工具和知识管理技术开始被应用,如数据 仓库、专家系统、知识管理系统等。第二阶段:成熟 期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生, 传统处理方法难以应对,带动了大数据技术的快速 突破,大数据解决方案逐渐走向成熟,形成了并行 计算与分布式系统两大核心技术,谷歌的GFS和 MapReduce等大数据技术受到追捧,Hadoop平台 开始大行其道第三阶段:大规 模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社 会智能化程度大幅提高 大数据特点及影响 大数据4V特点

大数据4V

数据量大

image-20201228155950315

根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增 长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近 30倍 数据类型繁多

image-20201228160043240

大数据是由结构化和非结构化数据组成的 10%的结构化数据,存储在数据库中90%的非结构化数据,它们与人类信息密切相关 处理速度快

image-20201228165317509

从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少

1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同

价值密度低

价值密度低,商业价值高

大数据的影响

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式

image-20201228165540545

在思维方式方面,大数据完全颠覆了传统的思维方式: 全样而非抽样效率而非精准相关而非因果 大数据的应用 应用场景

大数据

image-20201228172528136

典型的应用案例 航空公司客户价值分析财政收入预测分析 大数据技术 大数据技术的不同层面及其功能 技术层面功能数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数 据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础; 或者也可以把实时采集的数据作为流计算系统的输入,进行实时处 理分析数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云 数据库等,实现对结构化、半结构化和非结构化海量数据的存储和 管理数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算 法,实现对海量数据的处理和分析;对分析结果进行可视化呈现, 帮助人们更好地理解数据、分析数据数据隐私和安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐 私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 大数据核心技术

分布式存储

代表产品

HDFS

HDFS Architecture

分布式处理

MapReduce

img

大数据计算模式 大数据计算模式解决问题代表产品批处理计算针对大规模数据的批量 处理MapReduce、 Spark等流计算针对流数据的实时计算Storm、 S4、 Flume、 Streams、 Puma、 DStream、 Super Mario、银 河流数据处理平台等图计算针对大规模图结构数据 的处理Pregel、 GraphX、 Giraph、 PowerGraph、 Hama、 GoldenOrb等查询分析计算大规模数据的存储管理 和查询分析Dremel、 Hive、 Cassandra、 Impala 等 大数据产业 大数据产业链 产业链环节包含内容IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如 ,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化 管理软件的微软、思杰、 SUN、 Redhat等数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通 大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门 )、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信 、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如 Hadoop的HDFS和谷歌的GFS)、 ETL工具(Informatica、 Datastage、 Kettle等)、数据库和 数据仓库(Oracle、 MySQL、 SQL Server、 HBase、 GreenPlum等)数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算 框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau 、 BI工具(MicroStrategy、 Cognos、 BO)等等数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴 巴、谷歌、中国电信、百度等数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比 如交通主管部门、各大医疗机构、菜鸟网络、国家电网等 大数据生态 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别

大数据、云计算和物联网之间的关系

云计算 云计算概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具 备网络接入条件的地方,就可以随时随地获得所需的各种IT资源

image-20201228180631623

image-20201228180700745

物联网 物联网概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制

物联网体系架构图

参考文献

[1] 大数据时代[EB/OL].https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE%E6%97%B6%E4%BB%A3/4644597

[2] [英] 维克托•迈尔•舍恩伯格,[英]肯尼思·库克耶.大数据时代[M].浙江人民出版社:浙江,2012



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3