Data Mining 笔记频繁项&关联规则

一、关联规则介绍

关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其它事物的发生。经典范例:购物篮(Market Basket)分析。通过发现顾客放入购物篮中商品之间的同现关系来分析顾客的购买习惯,从而实现商品的交叉销售和推荐。?

Implication means co-occurrence, not causality!蕴含意味着同现而非因果关系!

二、频繁项Frequent Itemset 术语

先看Frequent Itemset 频繁项集术语解释:
  • 事务集合:所有事务集合T={t1,t2,…, tN} ,如用户的购买日志。
  • 项集itemset:一个活多个项的集合? ? ? ? ? ? ?如购买日志中用户可以买的商品的集合。
  • k-itemset :包含k项的项集,X = {x1, …, xk}
  • 事务: 若干项组成的集合tj={ij1, ij2, …, ijk} ?如单条购买日志中用户购买到的商品。
  • Support count (σ) 支持度计数 ? ? ? ? ? ? ? ? ? ? ?指定项集发生的频数。
  • 绝对支持度,考察的Item项发生的次数。如一次购买中交易中出现Beer的次数。(
    (absolute) support, or, support count of X: Frequency or occurrence of an itemset X)
  • 相对支持度,表示出现项x的在总事务集合中的比率比率((relative) support, s, is the fraction of transactions that contains X (i.e., the probability that a transaction contains X))

?只有一组项集出现的次数大于一定阈值minsup?才认为是频繁的。

三、示例数据

示例数据

四、?关联规则Association Rule的几个术语

confidence&support公式

主要要理解如下两个概念:

规则?X=>?Y?的支持度和可信度
  • 支持度?s:一次交易中同时包含{X 、 Y }的可能性
  • 置信度?c?:包含项X?的交易中同时也包含Y的条件概率

如对于上面的例子来说 ,考察牛奶&尿布与啤酒三者之间的关联关系。即买了牛内&尿布的记录中又买啤酒的情况。

在看置信度。即买了牛奶&尿布的交易中同时又出现啤酒的比率。这个太好理解了。计算公式是数数牛奶&尿布和啤酒一起出现的记录数,除以牛奶&尿布的记录数。置信度confidence是描述牛奶&尿布=>啤酒的可信程度。如果大部分买了牛奶&尿布的记录中都有啤酒,那么就说这两个项目是相关联的的。

上面事务数据中,其他的几种关联情况计算如下:

{Milk,Diaper} => {Beer} (s=0.4, c=0.67)
{Milk,Beer} => {Diaper} (s=0.4, c=1.0)
{Diaper,Beer} => {Milk} (s=0.4, c=0.67)
{Beer} => {Milk,Diaper} (s=0.4, c=0.67)
{Diaper} => {Milk,Beer} (s=0.4, c=0.5)
{Milk} => {Diaper,Beer} (s=0.4, c=0.5)

五、关联规则挖掘

实质上就是从事务、关系数据中发现频繁项集和关联规则。
频繁项集: 事务数据中支持度大于最小支持度阈值minsup的所有项集
关联规则:事务数据中支持度大于最小支持度阈值minsup且置信度大于最小置信度阈值minconf的所有规则
n关联规则挖掘的意义: 发现数据中的规律。通过分析历史数据试图找出一个规则,那些项是关联出现的。一个最典型的例子就是:用户买了牛奶和尿布后是不是会再买点啤酒。

详细可以参考

View 06FPBasic.ppt and other presentations by idouba.
完。

原创文章。为了维护文章的版本一致、最新、可追溯,转载请注明: 转载自idouba

本文链接地址: Data Mining 笔记频繁项&关联规则


, , ,

No comments yet.

发表评论