[机器学习]关联挖掘介绍

您所在的位置:网站首页 什么叫强关联规则 [机器学习]关联挖掘介绍

[机器学习]关联挖掘介绍

2024-06-17 23:45| 来源: 网络整理| 查看: 265

 

关联挖掘又称关联分析,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。

如下是一个超市的几笔交易记录:

中:TID代表交易流水号,Items代表一次交易的商品。

相关概念:

1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。

2、项:交易的每一个物品称为一个项,例如Cola、Egg等。

3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。

4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Egg}叫做2-项集。

5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3。

6、支持度(support):支持度表示项集{A,B}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为:

  support(A→B) = P(A,B) / P(I) = P(A∩B) / P(I) = num(A∩B) / num(I)

其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。

即支持度计数除于总的事务数。例如上例中总的事务数为4,{Diaper, Beer}的支持度计数为3,所以它的支持度是3÷4=75%,说明有75%的人同时买了Diaper和Beer。

即:

7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为50%时,因为{Diaper, Beer}的支持度是75%,所以它是频繁项集。

8、前件和后件:对于规则{Diaper}→{Beer},{Diaper}叫做前件,{Beer}叫做后件。

9、置信度(confidence):置信度表示在先决条件A发生的情况下,由关联规则”A→B“推出B的概率。表示在发生A的项集中,同时会发生B的可能性,即A和B同时发生的个数占仅仅A发生个数的比例,公式为:

confidence(A→B) = P(B|A)  = P(A,B) / P(A) = P(A∩B) / P(A)

对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数除以{Diaper}的支持度计数,为这个规则的置信度,说明做A事务时,有多少同时做了B事务。

例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。

10、强关联规则:大于或等于最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则。

11、提升度(lift):A事务对B事务的提升度,表示有A作为前提,对B出现的概率有什么样的影响。对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度除以{ Beer }的支持度与{ Diaper }的支持度的积。

Lift(A→B) = P(A|B) / P(B) /P(A)  即A对于B的置信度除以B的支持度和A的支持度之积

提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3