Tag Archives | data mining

Data Mining 笔记聚类k-means

一、概述

k-means 算法是一种基于划分partitioning methods聚类算法.

二、关于基于划分的算法

定义:给定n个对象或数据元组的数据库D,划分方法构建数据的k个划分(k n),每个划分表示一簇
方法:给定要构建的划分数目k,划分方法创建一个初始划分;然后采用迭代重定位技术,尝试通过对象在组建移动来改进划分.
k-means (MacQueen’67, Lloyd’57/’82): Each cluster is represented by the center of the cluster
k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Each cluster is represented by one of the objects[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining 笔记聚类

一、概念

Cluster: A collection of data objects,?similar (or related) to one another within the same group,?dissimilar (or unrelated) to the objects in other groups.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?–Jiawei Han

是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异
相异度根据描述对象的属性值评估,通常使用距离度量
聚类clustering是将物理或抽象对象的集合分成相似的对象类或clu[......]

阅读全文

Tags: ,

Comments { 0 }

Data Ming 笔记频繁项之FP-growth

一、概述

Apriori 算法一个Breadth-first (i.e., level-wise) search,需要产生大量的candidates的项集。而FPGrowth Approach (J. Han, J. Pei, and Y. Yin, SIGMOD’ 00)是一个Depth-first search,可以避免产生大量的项集。
主要思路是:从局部的频繁项中从短的频繁项得到长的频繁项。
比如,在数据集DB中发现,“abc”是一个频繁项,即DB|abc,考察含有该频繁项的子项时发现d是该频繁项中的一个局部频繁项,则abcd也是一个频繁项。

二、算法步骤

基本思想 (分治):用FP-tree递归增长频繁集
方法
  1. 对每个项,生成它的 条件模式库, 然后是它的 条件 FP-tree
  2. 每个新生成的条件FP-tree,重复这个步骤
  3. 直到结果FP-tree[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining 笔记FP高级

关于频繁项的高级探索。

@todo 完整笔记

 

[caption id="attachment_931" align="alignnone" width="763"]Pattern Mining: A Road Map Pattern Mining: A Road Map[/caption]

[slideonline id=9179]

Tags: , ,

Comments { 0 }

Data Mining笔记Classification之贝叶斯分类

一、 概述

概率与数理统计中的贝叶斯公司: bayes

二、算法

  1. X = (x1, x2, …, xn)是一个待分类的项;
  2. 有类别集合C= {C1, C2, …, Cm };
  3. 计算P(C1|X)、 P(C2|X)、 P(C3|X) … P(Cm|X);
  4. ?P(Ci|X) = max{P(C1|X),P(C2|X), P(C3|X)…P(Cm|X)}?那么项X应划分为类Ci
[box type="info" style="rounded"]我的注解:即在X条件下(x其实是组合条件,如年龄等于多少、同时输入那个级别等条件的叠加)Ci发生的几率,几率最大的,就是X落到该分类的可能性最大,则将X划分到该分类中[/box]
? ? ? ??bayes-p(c x)?其中分母P(x)对于所有的分类是一个常数,因此实际上主要比较P(X|Ci)的大小。
? ? ? ?bayes_p(xc0即在属于Ci分类的时候,X的取[......]

阅读全文

Tags: , ,

Comments { 0 }