Tag Archives | clustering

Data Mining 笔记聚类k-medoids

一、概述

k-means利用簇内点的均值或加权平均值ci(质心)作为类Ci的代表点。对数值属性数据有较好的几何和统计意义。对孤立点是敏感的,如果具有极大值,就可能大幅度地扭曲数据的分布.
k-medoids(k-中心点)算法是为消除这种敏感性提出的,它选择类中位置最接近类中心的对象(称为中心点)作为类的代表点,目标函数仍然可以采用平方误差准则。
PAM(Partitioning Around Medoids,围绕中心点的划分)是最早提出的k中心点算法之一。

二、算法思想:

随机选择k个对象作为初始的k个类的代表点,将其余对象按与代表点对象的距离分配到最近的类;反复用非代表点来代替代表点,以改进聚类质量。

即:算法将判定是否存在一个对象可以取代已存在的一个中心点。

  • 通过检验所有的中心点与非中心点组成的对,算法将选择最能提高聚类效果的对,其中成员总是被分配到[......]

阅读全文

Tags: , ,

Comments { 1 }

密码保护:基于通信统计特征识别代理网络设备

无法提供摘要。这是一篇受保护的文章。

Tags: , , ,

Comments { 0 }

Data Mining 笔记聚类k-means

一、概述

k-means 算法是一种基于划分partitioning methods聚类算法.

二、关于基于划分的算法

定义:给定n个对象或数据元组的数据库D,划分方法构建数据的k个划分(k n),每个划分表示一簇
方法:给定要构建的划分数目k,划分方法创建一个初始划分;然后采用迭代重定位技术,尝试通过对象在组建移动来改进划分.
k-means (MacQueen’67, Lloyd’57/’82): Each cluster is represented by the center of the cluster
k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw’87): Each cluster is represented by one of the objects[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining 笔记聚类

一、概念

Cluster: A collection of data objects,?similar (or related) to one another within the same group,?dissimilar (or unrelated) to the objects in other groups.

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?–Jiawei Han

是数据对象集合,同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异
相异度根据描述对象的属性值评估,通常使用距离度量
聚类clustering是将物理或抽象对象的集合分成相似的对象类或clu[......]

阅读全文

Tags: ,

Comments { 0 }

密码保护:Data Mining 项目实践一种聚类算法计算代理T设备数

无法提供摘要。这是一篇受保护的文章。

Tags: , ,

Comments { 0 }