第四章、图上的节点排序(pagerank) |
您所在的位置:网站首页 › pagerank排名泄露 › 第四章、图上的节点排序(pagerank) |
图的示例:将Web当作是一个图,其中Web中的网页作为图的节点,Web中的超链接作为图的边。
为什么排序:从直观上看所有的节点并不是同等重要的,我们需要给各个节点的重要性打个分。 例如thispersondoesnotexist.com vs. Stanford University 一个是斯坦福大学的网站,一个是个空白网页显然这两个网页不是同等重要的。 如何对节点重要性排序,这肯定要使用图的结构。下面开始我们的节点排序吧! 我们要讲如何使用以下连接分析的方法来计算图中节点的重要性。 网页排序个性化的网页排序重新开始的随机游走 边投票(Link As Votes)边投票:如果一个节点拥有越多的边,那么它就越重要。 我们需要更多的in-coming links还是更多的out-going links?考虑一个实际情况: http://www.stanford.edu 拥有23400条in-links,而thispersondoesnotexist.com仅拥有1条。如果按照指入边数量计算,很明显Stanford University 更加重要,这也符合我们原来的设想。 此外,我们还有一个问题,如果只计算in-links那就意味着我们将所有的边都视为都等重要,实际情况不是如此。 重要的节点拥有的out-links更加重要。而重要的in-links指向的节点也更加重要,这就变成了一个递归问题。 PageRank:The ‘flow‘ Model节点投票的性质: 每个链接的投票与其来源页面的重要性成正比。如果网页 上面的线性方程组,我们最直接的想法是使用高斯消元法来计算,但是此方法的算法时间复杂度为 随机邻接矩阵(Stochastic adjacency matrix) 下面是一个示例:
首先想象一个随机的网络冲浪: 在t时刻,冲浪者在网页让 有了这些概率分布,我们如何进一步研究冲浪者在 按照矩阵论中的知识,我们可以将等式
综上可以将排序向量 网页排序小节: 使用图的边结构测量图中节点的重要性使用随机邻接矩阵建模一个随机网上冲浪者求解等式下面讨论这里面涉及的三个问题: 我们分析一些特殊问题: 一些网页处在dead ends,即没有out-links不指向其他的网页 这样的网页会导致重要性“泄露”Spider trap即 这样的网页将会吸收所有的重要性 Spider trap
解决Spider solution的方法: 在每一次迭代中随机冲浪者有两个选择 以概率
解决Dead ends的方法: Teleport: 以总概率1跑出Dead ends.
我们已经知道可以用Teleport方法解决dead-ends和spider traps的问题。但是我需要考虑为什么这个两个是个问题?以及为什么Teleport可以解决上述问题? Spider-traps并不是一个问题,但是我们得到的traps PageRank scores并不是我们想要的。 解决方法:在有限的步骤中转移至其他点。Dead-ends 是一个问题。矩阵的列并不是列随机的,不满足我们的假设。(这里的列随机(column stochastic)指列之和不等于1). 解决方法:当无节点可去的时候,通过teleporting使列满足column stochastic. 随机Teleport: 在每一迭代中,随机冲浪者有两个选择(Google’s solution): 以概率Google 矩阵G(上述等式的矩阵表示):
同样,我们拥有一个递归的等式 求解 Pagerank小结: PageRank 求解推荐系统示例: 目标:图邻近。 我们应该给接触了物品 下面的二部图将是我们讲述推荐系统的基础,现在我们需要判定是 Proximity on graph PageRank: 通过重要性来对节点进行排序以均匀概率传送到网络中的任何节点Personalized PageRank: 排列节点与传送节点的相似程度Proximity on graphs Q: 哪些节点是物品主要思路:随机游走 Idea: 每一个节点都有重要性重要性在所有边缘之间平均分配,并推到相邻的边缘给定一个请求节点集,模拟一个随机游走: 向随机邻居迈出一步并记录访问(访问计数)以概率alpha在请求节点集中某个节点重新开始这个随机游走最高访问数量的节点表示对这个访问节点有最高的相似性。随机游走算法: 首先给出访问节点集
下图是随机游走得到的结果: 网页排序的变体 网页排序 传送到其他点节点特定主题网页排名 又名 个性化网页排序 传送到一组特定的节点冲浪者节点可以有不同的概率降落在不同的节点上。带有Restart的随机游走 Topic-Specific PageRank,传送总是到相同的节点; 总结 一个图自然表示成一个矩阵我们定义了图上的随机游走过程 随机冲浪者通过链接和随机传送来移动随机邻接矩阵(stochastic adjacency matrix)网页排序=冲浪者位置的极限分布表示节点的重要性 对应于变换邻接矩阵M的主特征向量 矩阵分解和节点嵌入Recall:编码器作为嵌入查找 节点嵌入与矩阵分解的联系: 最简单的节点相似:节点 矩阵分解: 嵌入维度 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |