[机器学习]关联挖掘介绍 |
您所在的位置:网站首页 › 什么叫强关联规则 › [机器学习]关联挖掘介绍 |
关联挖掘又称关联分析,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。 如下是一个超市的几笔交易记录: 中:TID代表交易流水号,Items代表一次交易的商品。 相关概念: 1、事务:每一条交易称为一个事务,例如示例1中的数据集就包含四个事务。 2、项:交易的每一个物品称为一个项,例如Cola、Egg等。 3、项集:包含零个或多个项的集合叫做项集,例如{Cola, Egg, Ham}。 4、k−项集:包含k个项的项集叫做k-项集,例如{Cola}叫做1-项集,{Cola, Egg}叫做2-项集。 5、支持度计数:一个项集出现在几个事务当中,它的支持度计数就是几。例如{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3。 6、支持度(support):支持度表示项集{A,B}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为: support(A→B) = P(A,B) / P(I) = P(A∩B) / P(I) = num(A∩B) / num(I) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 即支持度计数除于总的事务数。例如上例中总的事务数为4,{Diaper, Beer}的支持度计数为3,所以它的支持度是3÷4=75%,说明有75%的人同时买了Diaper和Beer。 即: 7、频繁项集:支持度大于或等于某个阈值的项集就叫做频繁项集。例如阈值设为50%时,因为{Diaper, Beer}的支持度是75%,所以它是频繁项集。 8、前件和后件:对于规则{Diaper}→{Beer},{Diaper}叫做前件,{Beer}叫做后件。 9、置信度(confidence):置信度表示在先决条件A发生的情况下,由关联规则”A→B“推出B的概率。表示在发生A的项集中,同时会发生B的可能性,即A和B同时发生的个数占仅仅A发生个数的比例,公式为: confidence(A→B) = P(B|A) = P(A,B) / P(A) = P(A∩B) / P(A) 对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数除以{Diaper}的支持度计数,为这个规则的置信度,说明做A事务时,有多少同时做了B事务。 例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。 10、强关联规则:大于或等于最小支持度阈值(minsup)和最小置信度阈值(minconf)的规则叫做强关联规则。关联分析的最终目标就是要找出强关联规则。 11、提升度(lift):A事务对B事务的提升度,表示有A作为前提,对B出现的概率有什么样的影响。对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度除以{ Beer }的支持度与{ Diaper }的支持度的积。 Lift(A→B) = P(A|B) / P(B) /P(A) 即A对于B的置信度除以B的支持度和A的支持度之积 提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |