Hadoop中MapReduce的性能优化及可视化工具开发

您所在的位置:网站首页 mapreduce的主要功能 Hadoop中MapReduce的性能优化及可视化工具开发

Hadoop中MapReduce的性能优化及可视化工具开发

2022-05-28 03:42| 来源: 网络整理| 查看: 265

Hadoop中MapReduce的性能优化及可视化工具开发 相关推荐 ·北京交通大学 ·河北工业大学 ·西北师范大学 ·吉林大学 ·河北工程大学

MapReduce是对海量数据并行处理的编程模型,云计算中的很多重要问题比如搜索引擎服务、庞大的科学计算任务,海量数据的挖掘等都可以通过MapReduce来解决,MapReduce编程模型在云计算中起着至关重要的作用。随着MapReduce越来越多的应用到各个领域,MapReduce的性能问题也得到了学者的关注,同时随着可视化技术的发展,性能优化过程和结果的可视化、学习过程可视化等问题也成了近几年的研究热点。Hadoop作为Google公司Map Reduce编程模型最受欢迎的Java开源实现,使之成为研究MapReduce最重要的平台,本文的性能优化及可视化工具的开发就是基于此平台展开研究的。Hadoop平台在运算过程中作业的调度方式起着至关重要的作用,一个好的作业调度算法可以使作业被执行的顺序、资源被分配的情况更加科学高效,可以提高Hadoop平台的计算性能和资源使用率。首先,在性能优化方面,本文对传统的FIFO算法(Fir  (本文共72页) 本文目录 | 阅读全文>>

权威出处: 北京交通大学 硕士论文 2016年 北京交通大学 北京交通大学 基于Hadoop的动车组故障诊断关键技术的研究与实现

随着我国高速铁路近年来的不断发展,动车组已经开始大规模投入使用,现阶段已经积累了海量的动车组运行状况数据并以TB数量级增长。如何利用海量的动车组故障数据进行分析,并进一步指导动车组维修和保养工作,这对于动车组故障诊断具有重大意义。然而高速铁路动车组运行状况数据具有多样化、容量大、复杂度高、速度快等特点,传统的数据挖掘算法效率低下,实时性差,已经无法满足目前对于动车组关键部件故障诊断应用的需求。因此本文提出引入Hadoop分布式计算框架,该框架的Map/Reduce编程模型能够根据动车组数据的特点有针对性地解决现阶段动车组故障诊断中的存在的不足,因此有一定的理论和现实意义。本文提出了基于Hadoop分布式框架的动车组故障诊断大数据解决方案,并通过对基于Hadoop的C4.5分类算法的优化为提高动车组故障诊断的效率提供了有效方法,并在实际应用中得到了验证。本论文的工作有以下几方面:(1)在分析了MapReduce分布式计算框架、分布...  (本文共69页) 本文目录 | 阅读全文>>

权威出处: 北京交通大学 硕士论文 2016年 河北工业大学 河北工业大学 基于Hadoop平台的故障诊断专家系统研究

故障诊断专家系统技术是将专家经验知识和数据库知识相结合,运用一定的推理技术进行故障诊断的先进技术。由于该系统准确性、时效性和稳定性等方面表现相对出色,该系统被广泛应用于各种领域。本文重点研究并设计了基于Hadoop平台的故障诊断专家系统,完成的主要工作如下:本文首先分析比较了现有的故障诊断专家系统的关键技术,详细研究了机器学习、知识发现、数据挖掘技术等的原理及内容,深入研究了Hadoop平台及Agent技术。通过基于Hadoop平台的故障诊断专家系统技术的研究和分析,针对其通用性不足以及推理判断方面不够准确的特点,对该平台采用了产生式扩展规则算法,以求达到更好的反馈结果。本文对这一改进方案进行了设计和实现。其次,本文综合运用推理方法和专家规则知识进行推理判断,结合Agent技术设计了“产生式扩展规则”算法,改进了传统故障诊断专家系统在通用性上的欠缺之处;搜索引擎上采用了垂直搜索引擎技术,完成了对url更加有效的采集工作;搜索结果...  (本文共57页) 本文目录 | 阅读全文>>

权威出处: 河北工业大学 硕士论文 2015年 西北师范大学 西北师范大学 基于Hadoop的数字博物馆构建研究

数字博物馆是运用虚拟现实技术、3D扫描技术、计算机网络技术等各种呈现技术,将现实世界中的实体博物馆通过三维立体的方式呈现的网络应用。详细而言,就是使用互联网和内部信息网络体系结构与传统的博物馆业务工作相结合,利用计算机的网络和实体博物馆环境信息作为进行交换的桥梁,把枯燥的数据转化为生动的模式,全面实现实体物理功能的博物馆。博物馆的主要功能是面向公众、实现互动参与。这能够引起观众的广泛兴趣,从而实现科普的目标。数字博物馆的建设面临的挑战主要来自两个方面:一是技术,二是管理。技术上,数字博物馆可被看作是一个大型分布式信息资源数据库和多媒体宽带网络组合在一起作为基础的,统一的文化/遗产自然资源信息资源共享与服务平台。数字博物馆涉及技术领域很广,需要以大规模数据存储和网络技术、虚拟现实技术、图像检索处理等技术作为支持。管理上,在数字博物馆的数据采集、存储、传输、显示等管理的不同阶段上,都遇到一系列问题。如组织管理、知识产权、大型安全管理...  (本文共57页) 本文目录 | 阅读全文>>

权威出处: 西北师范大学 硕士论文 2015年 吉林大学 吉林大学 基于Hadoop的视频转码优化的研究

在“互联网+”的大潮推动下,人们对视频的转码速度和质量等多方面需求日益增长。在2015年度的网络流量年报总结中可以看出,有关视频的流量成为了人们生活中消耗最大,占比例最大的一种。目前无论是工业界还是学术界,如何解决视频转码处理高效、高质量、高可用的“三高”问题,成为了研究的重点和核心。为此本文开展了视频转码的优化研究。本文采用云计算技术对视频进行转码,使用云环境达到并行计算,完成高效和高可用,力求转码前后质量不会发生巨大偏差。本文设计了一个视频转码云平台。该平台采用典型的三层结构:Iaa S选用的是Amazon基础设施云;Paa S选用的是Hadoop;Saa S中运行的是高性能的视频转码应用。本文提出了采用将FFMPEG和Map Reduce技术融合实现视频转码优化策略。文中创新性地提出了S_Map Reduce结构并在S_Map Reduce中引入虚拟IP机制来提高可扩展性和改变了Map Reduce架构的不可跨域等多个问题...  (本文共57页) 本文目录 | 阅读全文>>

权威出处: 吉林大学 硕士论文 2016年 河北工程大学 河北工程大学 Hadoop环境下电子病历检索研究

电子病历是医院信息管理的一个重要组成部分,包含了病人在医院、县乡卫生院就诊期间产生的全部医疗临床信息资源。电子病历系统的优劣对医疗信息共享、同病种案例对比以及医学领域学术研究具有重大的意义。然而,目前国内各大医院电子病历系统发展出现了很多问题,例如电子病历系统开发没有遵循统一标准,病历信息查询只能按照病人住院号或姓名之类的关键字,电子病历数据的增加导致检索速度慢等。所以如何存储剧增的电子病历数据,如何提高电子病历的检索效率,如果分析海量电子病历数据已经成为医疗界的研究热点。针对这种情况,本文在对电子病历国际标准、Hadoop平台、Lucene搜索框架以及数据挖掘技术进行深入研究的基础上,提出了一种Hadoop环境下的电子病历存储、检索和分析的解决方案,设计并实现了相应的原型系统。首先,将集中式存储与Hadoop的HDFS分布式存储相结合,创新地利用混合式存储方式来解决电子病历数据剧增的问题。其次,利用分布式、高性能的Map Re...  (本文共73页) 本文目录 | 阅读全文>>

权威出处: 河北工程大学 硕士论文 2016年


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3