Archive | data mining RSS feed for this section

密码保护:基于通信统计特征识别代理网络设备

无法提供摘要。这是一篇受保护的文章。

Tags: , , ,

Comments { 0 }

Data Mining 笔记关联规则之Apriori算法笔记

一、前言
上篇文章中对频繁项和关联规则做了一般性描述。知道关联规则的挖掘其实就是从事务、关系数据中发现频繁项集、再考察项之间的关联。
项集itemset生成是一个很费力力气的事情,如果事务中有d项待考察,则理论上会有2^d个candidate itemset。
generate-itemset

实际上并不是并不是所有的都candidate itemsets都需要考察。因为频繁项集有这样的性质

  • ?性质1:频繁项集的子集必为频繁项集。
  • ?性质2:非频繁项集的超集一定是非频繁的。

?二、Apriori算法

Apriori算法运用性质1,通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。潜在频繁k项集的集合Ck?是指由有可能成为频繁k项集的项集组成的集合。以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。

[......]

阅读全文

Tags: , , ,

Comments { 1 }

Data Mining 笔记频繁项&关联规则

一、关联规则介绍

关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其它事物的发生。经典范例:购物篮(Market Basket)分析。通过发现顾客放入购物篮中商品之间的同现关系来分析顾客的购买习惯,从而实现商品的交叉销售和推荐。?

Implication means co-occurrence, not causality!蕴含意味着同现而非因果关系!

二、频繁项Frequent Itemset 术语

先看Frequent Itemset 频繁项集术语解释:
  • 事务集合:所有事务集合T={t1,t2,…, tN} ,如用户的购买日志。
  • 项集itemset:一个活多个项的集合? ? ? ? ? ? ?如购买日志中用户可以买的商品的集合。
  • k-items[......]

阅读全文

Tags: , , ,

Comments { 0 }

【译】顺序聚类

@todo 翻译下文
原文地址:Sequential Clustering
Sequential Clustering

Sequential algortihms are pretty fast and straightforward methods, which tend to produce compact clusters. All the feature vectors are presented to the algorithm only once or just a few times, and the final clustering is usually strongly dependent on the presenting order of the data.

 

Basic Sequential Algorithmic Scheme – B[......]

阅读全文

Tags: , , , ,

Comments { 0 }

Wizag offers semantic analysis, attention to RSS[reference]

归档(转)techcrunch上面对wizag的介绍,除了文中对wizag项目的信息发现、内容自动提取等功能的介绍和描述,更在意的是文章后面用户的评价。虽然有Ping教授和人家打嘴仗的热闹,但更多的感受是教训。

RSS is world changing technology, but it risks getting bogged down in information overload. The simple solution is a system like MyYahoo where a limited number of feed items are displayed and the interface is most conducive to subscribing to a small number of feeds. The power user needs a l[......]

阅读全文

Tags: , ,

Comments { 0 }