大数据研究背景

2022-11-18 04:13| 来源: 网络整理| 查看: 265

随着物联网、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展，人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积[1]。互联网搜索引擎支持的数十亿次web搜索每天处理数万TB字节数据。全世界通信网的主干网上一天就有万TB字节数据在传输[2]。大型商场遍及世界各地的数以千计的门店每周都要处理数亿交易。现代医疗行业如医院、药店等也都每天产生庞大的数据量如医疗记录、病人资料、医疗图像等。数据的量级不断升级、应用的不断深入和大数据不可忽视的价值让我们不得不探索如何才能让我们更好的受益于这些数据。大数据是一次对国家宏观调控、商业战略决策、服务业务和管理方式以及每个人的生活都具有重大影响的一次数据技术革命[3]。大数据的应用与推广将给市场带来千万亿美元收益的机遇，称为数据带来的又一次工业革命[4]。然而，随着高速发展的信息技术，不断扩张的数据库容量，互联网作为信息传播和再生的平台，“信息泛滥”、“数据爆炸”等现象不绝于耳，海量的数据信息使得人们难以做出快速的抉择。全球互联网发展速度达到每半年就增加一倍，《纽约时报》在20世纪60年代的内容版面十几二十页左右，而如今已达到一百到二百页。国内出版业的《北京青年报》也已出版到四十版。据统计全球人均日阅读时间通常为三十分钟左右，也就说如此大的的数据量仅靠人的阅读来获得有效准确的信息已经难以为继。信息冗余、信息真假、信息安全、信息处理、信息统一等问题也随着大数据给人们带来价值的同时也造成了一系列的问题。人们不仅希望能够从大数据中提取出有价值的信息，更希望发现能够有效支持生产生活中需要决策的更深层次的规律。在现实情况的背景下，人们意识到如何有效地解决海量数据的利用问题具有研究价值和经济利益。但是面对如此海量的数据并且维度高、数据结构复杂，如何能够有效的从中挖掘出数据价值是人们需要面对的问题。面向大数据的数据挖掘研究就显得十分重要。面向大数据的数据挖掘的特有两个最重要的任务。一是实时性，如此海量的数据规模需要实时分析并迅速反馈结果。二是准确性，需要我们从海量的数据中精准提取出隐含在其中的用户需要的有价值信息，再将挖掘所得到的信息转化成有组织的知识以模型等方式表示出来，从而将分析模型应用到现实生活中提高生产效率、优化营销方案等。大数据具有规模性(volume)、多样性（variety）、高速性（velocity）和准确性（veracity）四个特点[5]，其前期研究工作主要集中在规模性和多样性上展开，而目前广泛存在并应用的数据是像金融、交通等场景下产生的流式数据，流式数据不同于传统的静态数据形态，作为一种新型大数据的数据形态更多的体现了大数据要求的高速和准确的特点。流数据需要我们从海量信息中更迅速的提取更精准的有价值信息，所以面向大数据的实时数据挖掘研究日益重要。流式数据分为稳定数据流和动态数据流，稳定数据流中的数据具有稳定独立同分布的特点，而动态数据流是不独立同分布的，因此会产生概念漂移。分类是通过已知类别的样本数据提取数据模型从而预测未知类标签数据的方法。分类挖掘算法作为一种有监督学习的算法，通过对已知类别的训练集发现模型从而预测新的数据集的类别，分类方法包括：贝叶斯、决策树、神经网络等。分类挖掘算法广泛应用在传感器网络、网络入侵检测、电话呼叫日志、银行风险评估等应用场景中。这些场景下的数据往往是随着时间不断产生而且数据量大且数据模型可能发生变化[6]，如大型商场中顾客的购物倾向会随着时间变化，网络安全中对入侵检测也随着用户不同而变化，工业生产中有问题的产品往往是相近的问题，然而共性的问题特征也是不断变化的。社交网络中用户的行为信息也将随着其位置信息的改变而发生改变。流式数据有数据量大、数据不断产生并且可能发生概念漂移三个特点。所以基于大数据的分类挖掘算法不仅需要对发生概念漂移数据具有很高的灵敏度，并且需要对最新的数据尽早的做出判断从而对模型自适应的调整。概念漂移是数据挖掘特别是针对数据流的数据分析中一个特别需要研究的问题。目前的数据挖掘算法系统大多数都是针对静态数据的，所以本质上都不具有抵抗流式数据概念漂移的能力。现有的数据挖掘系统不能实时根据数据流中的数据自适应更新模型从而保证模型的准确率[7]。

【本文地址】

大数据研究背景

大数据研究背景

今日新闻

推荐新闻