Tag Archives | apriori

Data Mining 笔记关联规则之Apriori算法笔记

一、前言
上篇文章中对频繁项和关联规则做了一般性描述。知道关联规则的挖掘其实就是从事务、关系数据中发现频繁项集、再考察项之间的关联。
项集itemset生成是一个很费力力气的事情,如果事务中有d项待考察,则理论上会有2^d个candidate itemset。
generate-itemset

实际上并不是并不是所有的都candidate itemsets都需要考察。因为频繁项集有这样的性质

  • ?性质1:频繁项集的子集必为频繁项集。
  • ?性质2:非频繁项集的超集一定是非频繁的。

?二、Apriori算法

Apriori算法运用性质1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck?是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。

[......]

阅读全文

Tags: , , ,

Comments { 1 }

Data Mining 笔记频繁项&关联规则

一、关联规则介绍

关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其它事物的发生。经典范例:购物篮(Market Basket)分析。通过发现顾客放入购物篮中商品之间的同现关系来分析顾客的购买习惯,从而实现商品的交叉销售和推荐。?

Implication means co-occurrence, not causality!蕴含意味着同现而非因果关系!

二、频繁项Frequent Itemset 术语

先看Frequent Itemset 频繁项集术语解释:
  • 事务集合:所有事务集合T={t1,t2,…, tN} ,如用户的购买日志。
  • 项集itemset:一个活多个项的集合? ? ? ? ? ? ?如购买日志中用户可以买的商品的集合。
  • k-items[......]

阅读全文

Tags: , , ,

Comments { 0 }