【杂志论文】智能推荐在新媒体内容分发中的应用

您所在的位置:网站首页 推荐系统的应用前景如何 【杂志论文】智能推荐在新媒体内容分发中的应用

【杂志论文】智能推荐在新媒体内容分发中的应用

2024-07-13 09:11| 来源: 网络整理| 查看: 265

内容平台的竞争,进入了一个前所未有的阶段,竞争的是用户注意力,竞争的要素除了优质的内容、渠道,更是技术。

从PC互联网到移动互联网,这场竞争变得更加激烈。可移动的随身携带的智能手机使得用户随时可以在线,随时可以浏览内容。并且智能手机不如PC便于输入信息,这使得用户的行为模式也方式也发生了根本性的变化。同时,互联网技术也使得内容生产的便利程度不断提高、门槛不断降低,信息的生产速度也在指数级上升。在这样的背景下,智能推荐技术应运而生。为了最大程度留住用户的注意力,学者和工程师应用我们已知最复杂的数学和计算机工程知识,研发并应用推荐系统架构、算法。

推荐系统在内容和用户之间搭起了桥梁,其本质是一个虚拟的计算机智能体,这个智能体替真实的用户提前快速地“审阅”海量的信息库,把其挑选好的“优质”内容供给用户。

本文从智能推荐在媒体内容分发中的应用出发,简要介绍了推荐系统的技术架构、算法模块及其在媒体中的主要应用场景,并以智能推荐在社交媒体知乎和凤凰新闻中的具体应用为例,探讨算法如何全方位洞察用户特征,立体分发内容,精准传达内容价值。

2. 推荐系统出现的背景

2.1受众媒介接触行为与内容分发模式变化

随着移动互联网用户数量的不断增长,人们接触信息的载体也快速地移动互联网化。作为传播媒介,手机改变了人们的媒介接触行为。截至2019年6月,我国网民规模达8.54亿,手机网民规模达8.47亿,我国网民使用手机上网的比例达99.1%。其中,网络新闻用户规模达6.86亿,手机网络新闻用户达6.60亿,网络新闻用户中使用手机的用户达96.21%;我国网民的人均每周上网时长为27.9小时,人均每天上网时长将近4小时[1]。与其他大众传媒相比,移动互联网彻底突破了 “传-受”之间不均衡的状况,以超常的便捷性、实时性和互动性,为用户的信息获取方式带来了革命性改变[2]。

在移动互联网兴起之前,报纸、广播、电视等传统媒体是信息获取的主要渠道。移动互联网起步阶段,各大资讯APP出现,但早期的移动新闻端的内容以报纸内容为主体,采用的仍是传统媒体的内容分发模式,依赖于记者、编辑等的“把关”,移动用户仍然以被动的身份接收着“千人一面”的信息。

随后兴起的微博、微信等主流社交媒体在某种程度上打破了“千人一面”的局面。移动用户通过自己的社交结构选择自己想看的信息,并且利用关注的对象与好友所形成的人际关系网在海量信息中筛选和过滤内容[3],用户渴望发声、渴望创作的需求被满足。

现在,用户获取信息的渠道不计其数,短视频、长视频和信息流是主流的内容形态。以算法核心的智能推荐系统,彻底改变了媒体内容分发的模式。通过对用户画像的精准分析,算法能够从海量内容中过滤出用户喜欢的内容,实现用户与信息的高效连接,满足用户的多元化、个性化需求。

2.2 新媒体为什么需要推荐系统

推荐系统解决的是用户和内容的关系。基于用户的兴趣偏好,系统把用户感兴趣的视频、资讯等推荐给用户,给用户带来沉浸式的体验,让用户感到满足。推荐系统主要解决两大问题:信息过载和长尾问题。一方面系统基于大量的用户行为数据来分析挖掘用户的偏好;另外一方面,基于内容数据及内容自身的特点,把内容和用户的兴趣进行匹配,从而达到个性化推荐。用户可以找到自己感兴趣的内容,平台上的其他内容也能有机会被用户看到。

推荐系统在今日头条的个性化服务及快速崛起中扮演着至关重要的角色。凭借着智能算法,今日头条快速抓取用户数据,精准分析用户需求,高效把关内容质量、进而实现个性化推荐,解决用户信息过载的问题。

当下,智能推荐已经成为内容分发不可或缺的技术。与传统的人工分发相比,智能推荐的优势很明显:千人千面的内容推荐、极高的内容分发效率、无人干预的自动化决策。智能推荐通过算法深度挖掘用户阅读兴趣,帮助用户快速发现感兴趣和高质量的信息,优化用户体验,减少用户浏览到重复或者厌恶的信息带来的不利影响。在分发效率上,中国传媒大学新媒体研究院院长赵子忠教授认为,人工给内容打标签并推送效率较低,算法技术可有效提升给信息分类和分发效率,能让有价值的内容匹配到更精准的用户[4]。凤凰新媒体客户端原来每日曝光的内容只有5000条左右,在使用智能推荐技术后,每天的曝光内容超过120万条;知乎也通过智能推荐技术将内容分发量提升200%,人均停留时长提升45%,点击率提升25%[5] 。

3.智能推荐系统关键技术

推荐系统作为一种常见的信息过滤手段,能够在信息过载环境下通过分析用户和物品之间的历史交互数据,建立用户兴趣模型,从而发现用户感兴趣的信息,并将这些信息推荐给用户。接下来将从推荐系统的架构出发,介绍主要的推荐算法及常见的推荐系统应用场景,探究推荐系统背后的原理。

3.1推荐系统架构

通常来说,推荐的主要流程可分为召回、排序、重排、生成推荐列表这几部分。

当用户在页面发起请求时,系统就需要给该用户推荐他比较兴趣的内容。通常来说,候选集的量级十分庞大,从数百万到数百亿不等。在这种情况下,如果直接计算用户相似度或内容相似度的话,复杂度和计算成本非常高。于是,我们通过召回来完成对候选集的初筛。召回,就是从原始的数据集中,对内容进行粗选,选出数千内容。召回可以从用户所属的地域、人群、内容的热度等维度考虑。

召回完成后,就是排序阶段。排序就是把召回筛选出来的物料根据内容与用户兴趣的相关度,从高到低进行打分,打分最高的内容就是与用户兴趣最相关的内容。这个阶段通常运用大规模机器学习模型排序。

在排序完成后,通常还会进行重排序,最后生成推荐列表。在这个阶段,系统会基于场景进行去重、多样性控制、加权等操作,综合多种内容来源,保证内容的多样性和新鲜度,最终返回给用户推荐结果。

在实际的应用中,召回、排序、重排、生成推荐列表等每一阶段都比较复杂,用到的也不止一个模型,不同的模型用到的也可能是不同的算法和策略。

3.2推荐算法模块

推荐算法是整个推荐系统中最核心和关键的部分,在很大程度上决定了推荐系统类型和性能的优劣。推荐算法大致可分为基于流行度的算法、基于内容的算法、协同过滤算法、基于模型的算法。

基于流行度的算法,从字面意思就可以理解,比如我们常见的知乎热榜、微博热榜、新闻热榜等,根据用户浏览量、活跃度、分享率等热度来排序,将内容推荐给用户,这种算法适合新用户,但其存在的一个明显弊端就是无法给用户提供个性化推荐。

基于内容的算法,就是根据用户过去喜欢的物品,来给用户推荐与其过去喜欢的物品内容和特征相似的物品。基于内容的推荐可转化为计算用户兴趣特征向量和候选物品的特征向量之间的相似度。基于内容的推荐可以很好地解决冷启动问题,但可能会失去推荐内容的多样性。

协同过滤算法,是目前使用比较广泛的算法。协同过滤可分为基于用户的协同过滤和基于物品的协同过滤。基于用户的协同过滤的原理是,通过用户的浏览、消费等记录分析各个用户对物品的评价,据此计算出所有用户之间的相似度,选出与当前用户最相似的N个用户,将这N个用户评价较高但是当前用户又没有浏览过的物品推荐给当前用户。基于物品的协同过滤,首先会分析各个用户对物品的浏览记录,之后依据浏览记录计算各个物品之间的相似度,针对当前用户评分最高的物品,找出与之相似度最高的前N个物品,将这个N歌物品推荐给用户。二者原理相同。

基于模型的算法,如我们用机器学习的思想建模,常用的基于模型的算法有关联算法、聚类算法、分类算法、矩阵分解、神经网络。基于模型的算法快速、

准确,通常适用于新闻、广告等实时性要求比较高的业务推荐。为了让算法达到更好的效果,通常需要人为地做属性的组合和筛选,即特征工程。

在实际的业务应用中,由于业务的复杂性,很少会单独拿某一种算法来直接做推荐,而是融合多种算法,比如给不同的算法分配不同的权重,或者在不同的模块运用不同的算法完成计算,以实现最佳推荐。

3.3 常见的推荐系统应用场景

推荐系统在新闻资讯中的应用场景主要有热门推荐、关联推荐、个性化推荐。

热门推荐基于全站内容的消费统计,进行全局、分频道或分地域的内容热门排行,该推荐常见于产品首页或内容详情页的“热门文章”、“排行榜”等模块。

图源自腾讯新闻客户端、知乎客户端、36氪客户端

关联推荐基于用户当前消费的内容,为用户推荐与当前内容相似的内容,从而提高产品的平均使用时长和人均阅读数,该推荐常见于产品内容详情页底部或侧边栏的“相关推荐” “看了还看”“买了还买”模块。

图源自36氪客户端

个性化推荐千人千面的推荐,基于机器学习和深度学习强大的意图识别能力,为每个用户在不同时间、不同地点推荐最适合的消费内容,该推荐常见于产品首页的“推荐”、“猜你喜欢”“发现”等模块。

图源自腾讯新闻客户端、知乎客户端、36氪客户端

4. 智能推荐技术在新媒体内容分发中的实际应用

从主流媒体到社交媒体,智能推荐技术已经成为各个内容平台的标配。以人民日报为代表的主流媒体通过主流算法实现了传统媒体到智能媒体的战略转型[6]。人民日报借助人工智能打造了具备“主流价值观”的算法,让算法在提高内容分发效率的同时,净化媒体内容生态,传递社会主流价值观。接下来我们将从智能推荐技术在社交媒体知乎和凤凰新闻客户端中的实际应用出发,探讨算法如何提高内容分发的效率,以及如何为用户提供更加精准化、个性化的优质阅读体验。

4.1智能推荐技术在社交媒体知乎中的应用

知乎从问答起步,经过 8 年的发展,已经成为一个综合性全民知识内容平台,涵盖 25 万个话题,2700 万个问题,1.2 亿个回答,月浏览量达到 290 亿。[7]面对信息过载的挑战,知乎通过个性化推荐和搜索缩短用户和内容之间的距离,让用户在知乎摆脱信息过载带来的负担和压力。

4.1.1知乎的推荐系统架构

知乎的推荐系统架构

上图为知乎推荐页面的一次用户请求流程。在线上模块部分,主要有召回、排序和重排三个阶段,最终返回推荐结果,展示给用户内容。

召回阶段主要是将用户可能感兴趣的内容提取出来,其重点在于“全”。召回主要有两种方式,一是基于话题,即通过获取用户的关注数据,挖掘用户行为,二是基于内容,即协同过滤。排序阶段主要是对召回的内容进行打分,可以理解为用户的感兴趣程度,其重点在于“准”。排序可以是基于时间顺序、线性加权等规则,也可以是基于GDBT、DNN等模型。重排序阶段则出于产品或业务的考虑,对排序的内容进行重排,最终将推荐结果展示给用户。在重排序阶段,会对推荐物料做一些处理,如提权,即给视频进行一定的提权;隔离,相似内容隔开;强插,保证高质量的新内容流通。

以上就是知乎推荐页面的大致框架,接下来将针对排序模块做详细讲解。首先介绍一下推荐页Ranking的演进历程,如下图所示,Ranking的演进主要经历了四个阶段[8]。

知乎推荐页排序的演进历程

第一阶段按照时间排序,即按照用户的、动态、点击等行为产生的时间进行排序;但其存在的问题是没有考虑到亲密度或者感兴趣的程度。第二阶段采用EdgeRank算法,该算法借鉴了Facebook的EdgeRank算法,根据用户亲密度进行排序。第三阶段的Feed Ranking采用GDBT模型。第四阶段的Global Ranking采用深度学习模型、DNN等。

在模型的选择上,主要有以下方面的考量:(1)深度学习趋势;(2)能处理更高维度特征,如几十万话题量级;(3)非线性模型,不必做大量的特征组合;(4)使用GPU + HDFS结构,可以训练更多的样本。

4.1.2 知乎智能推荐系统的特征工程

将特征按照内容进行分类,可分为如下三类:

第一类,用户画像特征,包含性别、年龄、职业等用户属性特征和用户点赞数、用户评论数等统计特征。

第二类,内容画像特征,包含文章长度、文章关键词等固有特征和文章历史点赞数、文章阅读数等统计特征。

第三类,用户与内容的交叉特征,如用用户感兴趣的话题和当前待推荐内容的话题交叉得到的特征。

至于特征的形式,主要包含以下几个方面:(1)数值特征:文章长度、点赞数、阅读数;(2)Onehot:如内容类型;(3)Multihot:内容多个话题 id(4)Onehot with value:用户对单类型内容的感兴趣程度;(5) Multihot with value:用户对各话题的感兴趣程度。

在特征的设计原则上,首先要保证特征尽量全,从现有的数据中提取尽可能多的特征;其次,特征原始值全,比如加历史点击率特征的时候,可以把日活和 点击都加进去;接着,覆盖率大,在设计时会去掉一些覆盖率很低的特征,这些特征影响影响范围小,大部分是缺失值;最后,线上线下特征一致,让覆盖率和取值分布尽可能接近。

未来的特征设计,将会从如下方向入手:一是显式交叉特征,DNN模型能学习特征的非线性能力,增加交叉特征可以降低模型搜索的空间,在训练数据一定的情况下可以提升效果,如用户的话题兴趣和当前话题的均值和最大值,效果提升明显;二是融入业务因素,把自己当做用户,考虑何种情况下点击率更高,何种内容更容易被用户点击,如视频在 Wifi 连接情况下下更容易被用户点击;三是数据挖掘特征,如内容Embedding特征。

4.1.3 知乎推荐系统的CTR预估模型

在CTR预估问题上,之所以选择模型,原因如下:(1)推荐页排序目标是把用户推荐感兴趣的内容排在前面,可有两个学习目标:一是停留时长:适合用回归问题来解决,最后会偏向于长文章;二是点击率:二分类问题,知乎的问答一般不长,更加合适;(2)分类问题相比回归问题,目标类别少,相对准确率高;(3)分类问题场景业界应用较广,可交流空间大;(4)分类问题最后会输出一个概率分,方便与多目标结合。

之前的模型基于CTR为导向来进行设计的,如DNN和Deep FM模型,但是这样用户的负反馈较多,因为一些长尾内容或者大众化内容较多,影响用户的体验。之后设计的多目标模型,有基于点击率的模型,基于收藏率的模型,基于点赞率,基于评论率等,共8个目标。

从性能方面的考虑,知乎将底层权重被设置为共享,最后一层会根据不同的目标进行权重的训练。主要分为以下步骤:

(1)每个任务共享前面的几层权重,可以节省训练和预测的计算量;

(2)损失可以是几个任务的损失做简单线性加权;

(3)上线仍然要确定各个CTR的加权值,经验比较重要;

(4)上线后线上表现:点击率基本不变,而其他的几个指标,比如点赞、收藏大幅提升。

综合之前模型的优点,最终设计出的模型如下图所示。

4.2 智能推荐技术在凤凰新闻中的应用

作为深耕新闻资讯领域的老牌媒体,凤凰新闻沉淀出海量的用户体量,在移动互联网新闻资讯行业日活过千万的平台中,凤凰新闻位列前三,人均单日使用时长超过三十分钟[9]。2016年,凤凰新闻便将智能算法与人工编辑强强联合,通过个性化推荐全方位洞察用户特征,立体分发内容,精准传达内容价值。

4.2.1 凤凰新闻的智能推荐系统架构

下图为凤凰新闻的智能推荐系统的整体架构[10],整体基于召回和排序的框架,与业内相似。百万量级的内容池经过召回阶段的初筛、规则过滤、粗排序之后,可得到规模在几千量级的召回候选集;在精排阶段,经过多目标排序的优化,可将召回候选集规模降到几百量级;最后经过重排和人工规则的过滤,将数据集降到几十量级,推送给用户。

目前,凤凰新闻推荐系统精排序阶段的模型为Deep模型,如下图所示:

在上图所示的模型中,从下往上,最底层右侧为用户信息、交互信息与内容信息,左侧为用户历史的行为集合,上一层为数据嵌入层;第三层左侧为FM模型的池化(Pooling)层,用来捕捉低阶的交叉特征,中间的DNN模型捕捉高阶的变化,右侧的Attention Layer用来捕捉Session序列,包括用户的行为序列;最上边一层是多目标学习,包括阅读、点赞、收藏、分享等一系列行为。根据业务需求可以调整不同指标的权重,有针对性地进行优化。

4.2.2 凤凰新闻的特征工程和召回

从系统的角度出发,凤凰新闻的特征工程架构如下:

凤凰新闻的特征框架主要分为三部分,自下而上,分别为离线日志、实时日志、线上请求数据。中间层的特征框架是抽象出来的共有特征组件,其中包括线上请求、实时处理以及离线数据,从而保证了特征的一致性。换言之,凤凰新闻离线的模型训练与线上的模型预估使用的是同样的特征数据。最上层为数据存储层,离线日志会存到Hive中,而实时的数据则会存到Redis集群中。整个特征框架的大致流程是,线上请求通过特征框架的规范化,去请求模型,最后通过模型得到排序的结果。

从特征分类的角度出发, 凤凰新闻的特征工程有可作如下划分:

用户画像主要指用户的人口属性、兴趣属性、层次以及行为偏好;内容画像指针对内容的分类、自然语言处理、内容统计指标、文本质量分数、向量稠密表示等;请求上下文指时间、天气、地域、手机型号、品牌等客观环境的描述。特征和特征之间会进行一定的交叉,赋予该特征更多的含义。如果将用户画像与请求的上下文进行特征的交叉,则会得到用户常驻地、用户的兴趣变化、用户在不同场景下的行为、手机品牌对用户的影响等。这些特征的构建对推荐系统的解释性提供了强有力的支撑。

在召回部分,凤凰新闻使用了多路召回的办法。以利用FFM模型进行召回为例,其优势很明显:可以很好地结合业务定制优化目标,引导向量学习;可以在在一定程度上解决内容冷启动的问题;可以对新内容进行召回,在保证召回结果个性化的同时,还可以给用户带来惊喜感;此外,FFM模型可以避免传统协同过滤带来的“马太效应”。

4.2.3 凤凰新闻在提升用户体验上的实践

“标题党”的出现严重影响着用户的阅读体验,用户跳出率升高,影响用户留存。在鉴别“标题党”方面,凤凰新闻主要从三个角度入手:(1)从内容特征入手,人为标记初始训练数据,后续通过自然语言处理建模;(2)通过用户举报去积累数据;(3)从数据特征入手,使用用户的评论等数据进行甄别。

从内容的动态特征,即内容的消费数据入手,内容消费可按照时长划分为6个维度,转化率可划分为5个百分维度,阅读完成比可划分5个百分维度,相互组合共有150维的特征,文章的归属为其中的一类组合作为文章的动态特征,比如“时长0-30s,阅读比10-30%,转化15%-20%”。

经过大量统计和对比发现,“标题党”类的内容会存在高转化率、低时长、低完成比的性质;相反,中等转化率、高时长、高完成比的内容一般为优质深度类的内容。通过线上用户真实反馈加以验证后,在精排模型以及重排模型中加入该特征体系,有效抑制用户对分类下的“标题党”,从而优化用户阅读体验。在实际的A/B测试上,也证明加入这些特征后对用户的留存和体验有较明显的提升。

5. 总结

智能推荐技术已成为头部新媒体平台的中坚力量。凭借技术驱动,头部新媒体平台快速占领了内容分发的山头。放眼整个媒体行业,腰部的媒体平台仍然处于艰难的转型期。其中,技术人员的匮乏是这些平台应用智能推荐技术的主要阻碍因素,一些媒体平台团队内的技术人员甚至不足10人。另外一个现象是超过三分之二的中长尾平台会选择与第三方技术供应商合作[11]。随着技术的不断发展变革,我们相信,人工智能在未来将触及媒体的更多角落,帮助更多的媒体实现智能化转型,让智能推荐成为各个媒体的“常规武器”。

引用来源

[1] CNNIC.第44次中国互联网络发展状况统计报告[R].2019.

[2] 何其聪,喻国明.移动互联用户的媒介接触:行为特征及研究范式[J].2014(12).

[3] 靖鸣,管舒婷.智能时代算法型内容分发的问题与对策.新闻爱好者[J].2019(5).

[4] 人民日报海外网.专家热议智能推荐,算法可以打破茧房壁垒.

[5] CSDN. 人工智能技术在内容行业的应用:AI对中长尾内容平台还是奢侈品.

[6] 腾讯财经.第四范式与人民日报签约,共同打造新媒体主流算法

[7] 环球网.知乎CTO李大海:AI是应对内容消费升级的关键武器.

[8] 单厚智.知乎推荐页Ranking经验分享.

[9] 艾瑞. 2019中国移动端新闻资讯营销策略研究报告[R]. 2019.

[10] 马迪.信息流推荐在凤凰新闻的业务实践.

[11] CSDN. 人工智能技术在内容行业的应用:AI对中长尾内容平台还是奢侈品.返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3