数据挖掘实验一:分类技术

您所在的位置:网站首页 链路预测指标 数据挖掘实验一:分类技术

数据挖掘实验一:分类技术

2024-01-05 21:59| 来源: 网络整理| 查看: 265

s i m ( i , j ) = 1 d ( I j ) ∑ a = 1 m w i a w j a d ( u a ) sim(i,j)=\frac{1}{d(I_j)}\sum_{a=1}^m{\frac{w_{ia}w_{ja}}{d(u_a)}} sim(i,j)=d(Ij​)1​a=1∑m​d(ua​)wia​wja​​

s i m ( i , j ) sim(i,j) sim(i,j):代表电影 i i i和电影 j j j的相似度;

w w w:代表的是权重,根据用户的打分计算获得,权重并不一定是一个均匀分布的量,因为单纯把评分5星的权重设置成评分1星权重的5倍是不太合理的。权重更应该呈现出是打分的下凸函数的形式,设 w = f ( r a t i n g ) w=f(rating) w=f(rating),1、2星时的 w w w应该都很接近0,5星时的 w w w应该为1;

w i a w j a w_{ia}w_{ja} wia​wja​:代表用户 a a a对电影 i i i权重乘以用户 a a a对电影 j j j的权重;

如果用户 a a a同时对电影 i i i和 j j j都产生行为,那就说明电影 i i i和电影j可能是相似的,但有多相似?取决于用户 a a a对电影 i i i、 j j j的评价(即权值)。如果两个电影的评价都很高,则该项就会较大,即代表用户喜欢电影 i i i时,有较大的可能性也喜欢电影 j j j;

d ( I j ) = ∑ k = 1 l w k j d(I_j)=\sum_{k=1}^{l}w_{kj} d(Ij​)=∑k=1l​wkj​:代表所有用户给电影 j j j权重的和,即电影 j j j的所有评价分;

如果该项很高,可以从一定程度上认为电影 j j j是流行的、受欢迎的。一个受欢迎的电影可以和大多电影产生关联,但这并不能说明它们就是相似的。什么样的行为在相似度矩阵里作用大呢?应该是小众的且打分高的电影,因为根据这些电影我们可以较为准确得定位一类电影。而受欢迎的电影显然是要被抑制的,因为它不能代表一类电影或用户,所以乘以 d ( I j ) d(I_j) d(Ij​)的倒数来抑制流行电影的影响;

d ( u a ) = ∑ k = 1 m w a k d(u_a)=\sum_{k=1}^{m}{w_{ak}} d(ua​)=∑k=1m​wak​ :代表用户 a a a的全部打分和,用于判断用户 a a a的选择是否有代表性;

一个有选择性看电影的用户对相似度矩阵的帮助更大。如果一个用户看过很多电影并且给很多电影打了高分,则该项值很大,但我们此时不能从该用户的行为中得到较大的区分电影的帮助,所以我们要抑制这种行为,故乘以 d ( u a ) d(u_a) d(ua​)的倒数;


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3