基于Spark平台推荐系统研究

2024-07-09 09:11| 来源: 网络整理| 查看: 265

来自万方  喜欢 0

阅读量：

196

作者：

杨志伟

展开

摘要：

现代互联网的高速发展产生了大量富有价值的互联网信息,如何从海量的数据中挖掘出有用的信息是具有重大意义的课题。大数据平台的研究与发展就是在这一背景下兴起。Hadoop的诞生使人们关注Map Red uce这一计算模式的研究,而Spark通过引入RDD数据模型及基于内存的运算模式,使其能很好地适应大数据的数据挖掘这一场景,并且在迭代计算方面优于Hadoop,迅速成为了广大企业、学者的研究重点。推荐系统是一种从海量用户行为数据中挖掘有用信息并提供给用户的应用,推荐系统中推荐算法的实现是数据挖掘的重要部分。基于传统计算机的推荐算法实现过程需要耗费大量的时间,不能满足当今的商业需求,而结合分布式计算平台的并行化实现能有效解决这一问题,并且推荐算法实现过程中存在多次迭代计算,Spark的出现正是迎合了推荐算法并行化实现这一需求。鉴于目前国内外基于Spark平台的各类应用的发展趋势,本文将基于Spark平台对推荐算法相关技术进行研究,主要包括以下两个方面: (1)基于Spark平台推荐算法并行化研究。在对Spark平台及推荐系统相关技术研究基础上,首先对基于Spark平台推荐算法并行化实现过程进行了设计,详细分析了算法在提交后集群节点的作用及任务的分配情况;其次对基于Spark平台推荐算法并行化进行实现,主要实现了基于用户的协同过滤、基于物品的协同过滤及基于ALS模型推荐算法,给出了详细的并行化实现过程,并加以分析;最后以实例的形式详细分析了Spark存算法实现过程中,如何进行数据及任务的并行化。 (2)基于Spark平台并行化实现的优化。优化主要包括两个方面:平台的优化及推荐算法的优化。在推荐算法并行化实现过程中,发现Spark集群节点异构情况下,存在任务调度不合理问题,提出异构Spark集群自适应任务调度策略HSATS。基于邻域推荐算法优化方面,提出对用户或物品的隐含标签属性进行向量化,并最终与相似度计算进行融合。基于ALS模型推荐算法方面,设计了一种新的损失函数,将模型训练前的用户及物品相似性信息融合进去。实验结果表明,Spark在推荐算法这一需要多次迭代的并行化实现过程中性能优于Hadoop。在异构Spark集群情况下,HS ATS自适应任务调度策略能减少作业的完成时间,集群节点资源利用更合理。提出的推荐算法优化方案,提高了推荐系统的评测指标。

展开

关键词：

大数据推荐系统并行化协同过滤

【本文地址】

基于Spark平台推荐系统研究

基于Spark平台推荐系统研究

今日新闻

推荐新闻