数据挖掘实验一：分类技术

2024-01-05 21:59| 来源: 网络整理| 查看: 265

s i m ( i , j ) = 1 d ( I j ) ∑ a = 1 m w i a w j a d ( u a ) sim(i,j)=\frac{1}{d(I_j)}\sum_{a=1}^m{\frac{w_{ia}w_{ja}}{d(u_a)}} sim(i,j)=d(Ij)1a=1∑md(ua)wiawja

s i m ( i , j ) sim(i,j) sim(i,j)：代表电影 i i i和电影 j j j的相似度；

w w w：代表的是权重，根据用户的打分计算获得，权重并不一定是一个均匀分布的量，因为单纯把评分5星的权重设置成评分1星权重的5倍是不太合理的。权重更应该呈现出是打分的下凸函数的形式，设 w = f ( r a t i n g ) w=f(rating) w=f(rating)，1、2星时的 w w w应该都很接近0，5星时的 w w w应该为1；

w i a w j a w_{ia}w_{ja} wiawja：代表用户 a a a对电影 i i i权重乘以用户 a a a对电影 j j j的权重；

如果用户 a a a同时对电影 i i i和 j j j都产生行为，那就说明电影 i i i和电影j可能是相似的，但有多相似？取决于用户 a a a对电影 i i i、 j j j的评价（即权值）。如果两个电影的评价都很高，则该项就会较大，即代表用户喜欢电影 i i i时，有较大的可能性也喜欢电影 j j j；

d ( I j ) = ∑ k = 1 l w k j d(I_j)=\sum_{k=1}^{l}w_{kj} d(Ij)=∑k=1lwkj：代表所有用户给电影 j j j权重的和，即电影 j j j的所有评价分；

如果该项很高，可以从一定程度上认为电影 j j j是流行的、受欢迎的。一个受欢迎的电影可以和大多电影产生关联，但这并不能说明它们就是相似的。什么样的行为在相似度矩阵里作用大呢？应该是小众的且打分高的电影，因为根据这些电影我们可以较为准确得定位一类电影。而受欢迎的电影显然是要被抑制的，因为它不能代表一类电影或用户，所以乘以 d ( I j ) d(I_j) d(Ij)的倒数来抑制流行电影的影响；

d ( u a ) = ∑ k = 1 m w a k d(u_a)=\sum_{k=1}^{m}{w_{ak}} d(ua)=∑k=1mwak ：代表用户 a a a的全部打分和，用于判断用户 a a a的选择是否有代表性；

一个有选择性看电影的用户对相似度矩阵的帮助更大。如果一个用户看过很多电影并且给很多电影打了高分，则该项值很大，但我们此时不能从该用户的行为中得到较大的区分电影的帮助，所以我们要抑制这种行为，故乘以 d ( u a ) d(u_a) d(ua)的倒数；

【本文地址】

数据挖掘实验一：分类技术

数据挖掘实验一：分类技术

今日新闻

推荐新闻