Tag Archives | data mining

Data Mining 笔记聚类k-medoids

一、概述

k-means利用簇内点的均值或加权平均值ci(质心)作为类Ci的代表点。对数值属性数据有较好的几何和统计意义。对孤立点是敏感的,如果具有极大值,就可能大幅度地扭曲数据的分布.
k-medoids(k-中心点)算法是为消除这种敏感性提出的,它选择类中位置最接近类中心的对象(称为中心点)作为类的代表点,目标函数仍然可以采用平方误差准则。
PAM(Partitioning Around Medoids,围绕中心点的划分)是最早提出的k中心点算法之一。

二、算法思想:

随机选择k个对象作为初始的k个类的代表点,将其余对象按与代表点对象的距离分配到最近的类;反复用非代表点来代替代表点,以改进聚类质量。

即:算法将判定是否存在一个对象可以取代已存在的一个中心点。

  • 通过检验所有的中心点与非中心点组成的对,算法将选择最能提高聚类效果的对,其中成员总是被分配到[......]

阅读全文

Tags: , ,

Comments { 1 }

Data Mining 笔记之Classification

一、概念

监督式学习VS非监督式学习

Supervised learning (classification)
Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations
New data is classified based on the training set
Unsupervised learning (clustering)
The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishi[......]

阅读全文

Tags: ,

Comments { 0 }

Data Mining 笔记Classification之决策树属性选择方法

一、概述

在decision tree的分类算法中提到了要从多个训练集的样本属性中选择一个属性作为测试条件,将记录划分为多个子集。如何从多个属性中选择一个属性呢。这就需要有一种指标来对属性在待划分的结果集上进行度量。

二、信息增益:Information Gain (ID3)

在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息熵参照

数学之美系列四:怎样度量信息中的介绍:信息熵”(shāng) 是对信息的量化度量,一条信息的信息量大小和它的不确定性有直接的关系。

 

从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。我们希望选择的是最有利于分类实例的属性[......]

阅读全文

Tags: , , ,

Comments { 1 }

Data Mining 笔记Classification之决策树

一、算法概述

是一种类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出;每个树叶结点存放一个类标号。

基本算法

通过递归的方式从上向下,开始的所有训练集中的数据都在根节点。样本数据的属性可以被分类(如果是联系的数据,需要事先离散化)。样本数据基于选定的属性进行分开,通过information gain等统计指标来选择样本考察的属性。

算法终止条件

  • 一个节点上的样本属于一个相同的分类;
  • 没有剩余的属性需要再分割数据
  • 所有样本都考察完毕

三、算法伪代码

四、算法示例

训练集如下,根据训练集数据建立决策树。并判断顾客,有这样四种属性(青年,低收入,非学生,中等信用度) 是否有购买电脑的倾向

id?
年龄?
收[......]

阅读全文

Tags: , ,

Comments { 0 }

密码保护:基于通信统计特征识别代理网络设备

无法提供摘要。这是一篇受保护的文章。

Tags: , , ,

Comments { 0 }