Archive | 七月, 2013

Data Mining 笔记聚类k-means

一、概述

k-means 算法是一种基于划分partitioning methods聚类算法.

二、关于基于划分的算法

定义:给定n个对象或数据元组的数据库D,划分方法构建数据的k个划分(k n),每个划分表示一簇
方法:给定要构建的划分数目k,划分方法创建一个初始划分;然后采用迭代重定位技术,尝试通过对象在组建移动来改进划分.
k-means (MacQueen’67, Lloyd’57/’82): Each cluster is represented by the center of the cluster
k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Each cluster is represented by one of the objects[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining 笔记聚类

一、概念

Cluster: A collection of data objects,?similar (or related) to one another within the same group,?dissimilar (or unrelated) to the objects in other groups.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?–Jiawei Han

是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异
相异度根据描述对象的属性值评估,通常使用距离度量
聚类clustering是将物理或抽象对象的集合分成相似的对象类或clu[......]

阅读全文

Tags: ,

Comments { 0 }

Data Ming 笔记频繁项之FP-growth

一、概述

Apriori 算法一个Breadth-first (i.e., level-wise) search,需要产生大量的candidates的项集。而FPGrowth Approach (J. Han, J. Pei, and Y. Yin, SIGMOD’ 00)是一个Depth-first search,可以避免产生大量的项集。
主要思路是:从局部的频繁项中从短的频繁项得到长的频繁项。
比如,在数据集DB中发现,“abc”是一个频繁项,即DB|abc,考察含有该频繁项的子项时发现d是该频繁项中的一个局部频繁项,则abcd也是一个频繁项。

二、算法步骤

基本思想 (分治):用FP-tree递归增长频繁集
方法
  1. 对每个项,生成它的 条件模式库, 然后是它的 条件 FP-tree
  2. 每个新生成的条件FP-tree,重复这个步骤
  3. 直到结果FP-tree[......]

阅读全文

Tags: , ,

Comments { 0 }

豆豆、豆妈、豆爸

 

豆豆和妈妈回姥姥家的时候,把爸爸一个人扔在家里,想豆豆的时候记录下的点滴文字,发表出来。

豆爸一个人回家啦

2013年4月

中午从姥姥家出来赶飞机。

一个人,背着背包,拉着箱子,像十几年一样。

在机场准备安检的地方休息,看见一个小女孩在面前的一排椅子空隙来回跑,远处关切、深情、幸福的看着的一对男女应该是小姑娘的爸爸妈妈吧。脑子里面一瞬间一种奇怪的幸福感一下子打破了刚才混沌的精神。怎么看那小姑娘怎么那么熟悉,那么亲切,那么想去抱一抱…

豆豆,太像我们豆豆了。

在中午从姥姥家出来前,爸爸还是和之前的四个月一样,沉浸、享受、习惯于和豆豆的每一个白天黑夜,每一个分分秒秒。坐上大巴车就困了,睡着了,打上出租车还没太清醒,迷迷瞪瞪就赶到了机场。

一个人,背着背包,拉着箱子,像十几年一样。

其实挺享受这种感觉,很?直接的回想到了十九岁的时[......]

阅读全文

Tags: , ,

Comments { 1 }

java 垃圾回收策略

尝试介绍几种常用的垃圾回收算法,根据年轻代、年老的的特征分别使用不同的收集算法。以及考虑到垃圾收集的吞吐量、暂停时间等采用不同的收集选项。

垃圾回收算法

收集算法主要有引用计数(reference counting)和引用追踪(tracing collector),从名字上不难理解一个就是数对象引用数,没用了则清楚,引用追踪则是产看对象是否从活的“跟对象”(“跟对象”见本文下面介绍)关联出来。收集器从根开始访问每一个活跃的节点,标记它所访问的每一个节点。走过所有引用后,收集就完成了,然后就对堆进行清除(即对堆中的每一个对象进行检查),所有没有标记的对象都作为垃圾回收并返回空闲列表。

根据算法的细节引用追踪又分为标记清除、复制、标记整理三类。

tracing-collector

引用计数(Reference?Counting

比较简单直接。最好理解最容易想到的一种策略。原理是此对象有一个引用,即增加[......]

阅读全文

Tags: ,

Comments { 2 }