大数据导论三

您所在的位置:网站首页 大数据技术的介绍 大数据导论三

大数据导论三

2023-08-05 07:29| 来源: 网络整理| 查看: 265

大数据技术层面及其功能 

数据采集和预处理(功能)

利用ETL工具将分布的数据,抽取到临时中间层后进行处理,最后加载到数据仓库中,成为联机分析处理、数据挖掘的基础;

利用日志采集工具把实时采集的数据作为流计算的输入,进行实时处理分析;

利用网页爬虫程序到互联网网站中爬取数据。

数据存储和管理(功能)

利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理。

数据处理和分析(功能)

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。

数据可视化(功能)

对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据。

数据安全和隐私保护(功能)

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

数据采集

DAQ,又称数据获取,它通过各种技术手段把外部各种数据源产生的数据进行实时或非实时的采集,获得各种类型的结构化、半结构化以及非结构化的海量数据并加以利用。

三大要点:全面性、多维性、高效性

数据分类

结构化信息:传统的关系型数据库,可用二维表结构表示;

半结构化信息:类似XML之类,数据结构和内容混杂在一起;

非结构化信息:各种文档、图片、视频等;

数据采集方式

离线采集、实时采集、互联网采集

数据采集数据源 传感器:是一种检测装置、能感受到被测量的信息;互联网数据:互联网数据采集是借助网络爬虫来实现的,通过网页数据的定向抓取,将非结构化的数据从网页中抽取出来,并以结构化的方式存储在本地;企业业务系统数据:企业每时每刻产生的业务数据,以数据库一行记录的形式,被直接写入到数据库中,企业使用传统关系数据库MySQL和oracle来存储业务系统数据。日志文件:日志文件系统一般由数据源系统产生,用于记录数据源的执行的各种操作活动。 常用日志系统采集工具 chukwa,apache提出了chukwa的方法flume,一个可靠性和可用性非常高的日志系统,支持分布式的海量日志采集、聚合和传输,具有写到各种数据接收方的能力scribe,日志收集系统,容错性很好,facebookkafka,高吞吐的分布式发布订阅消息系统,可以处理大规模网站中的所有动作流数据 数据清洗

检查数据一致性、处理无效值、缺失值

需要清洗的数据主要类型:残缺数据、错误数据、重复数据

数据清洗的内容:一致性检查、无效值和缺失值的处理

数据清理方法:整列删除、变量删除、成对删除、估算

数据存储概述

一个是存储量需求越来越大、一个是对数据的有效管理提出了更高的要求

传统数据存储技术

传统数据存储和管理一般以结构化数据为主,数据库和文件系统是主流技术

文件系统

是操作系统用于明确存储设备或分区上的文件的方法和数据结构,即存储设备上组织文件的方法;

文件系统由三部分组成:文件系统的接口,对对象操纵和管理的软件集合,对象及属性;

关系数据库

数据库是指以一定方式存储在一起,能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合;目前比较主流的数据库是关系数据库,采用了关系数据模型来组织和管理数据。

数据仓库

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

并行数据库

指那些在无共享的体系中进行数据操作的数据库系统。

大部分采用了关系数据模型并且支持SQL语句查询,为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。

大数据时代的存储技术

分布式系统、NoSQL、NewSQL

分布式系统:一种通过网络实现文件在多台主机上进行分布式存储的文件系统

NoSQL:对非关系数据库的统称,类似键值、列族、文档等非关系模型;没有固定表结构、具有灵活的水平可扩展性、支持海量数据存储;具有三个特点:灵活的可扩展性、灵活的数据模型、与云计算紧密结合

NewSQL数据库:对各种可扩展、高性能数据库的简称

大数据处理分析技术方法

 可视化 可视化面临的挑战

计算能力:大数据时代数据流爆发式增长带来的数据计算和处理能力的挑战;

感知能力和认知能力的局限性:人类视觉强大,但是又十分有限

显示能力:主要局限于二维屏幕空间

数据安全技术

身份认证技术、访问控制技术、加密技术、防火墙技术、入侵检测技术

隐私保护技术

如何在不泄露用户隐私的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题;

数据水印保护原创

大数据生命周期的隐私保护模型

隐私保护的生命周期模型有主要几个阶段

数据发布、数据存储、数据挖掘、数据使用

数据发布:与传统针对隐私保护进行的数据发布手段相比,大数据发布面临的风险是大数据的发布是动态的,且针对同一用户的数据来源众多、总量巨大;

数据存储:云存储服务商并不保证完全可信,用户的数据面临被不可信的第三方偷窃或者篡改的风险

数据挖掘:由于数据存在来源多样性和动态性等特点,经过匿名处理后,经过大数据关联分析、聚类等挖掘方法后,依然可以分析用户隐私;

数据使用:在大数据环境下,如何确保合适的数据及属性能够在合适时间地点访问和使用,是主要风险。现在主要技术:时刻融合的角色访问控制、基于属性集加密访问控制、基于密文策略属性集的加密。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3