Archive | classification RSS feed for this section

Data Mining 笔记之Classification

一、概念

监督式学习VS非监督式学习

Supervised learning (classification)
Supervision: The training data (observations, measurements, etc.) are accompanied by labels indicating the class of the observations
New data is classified based on the training set
Unsupervised learning (clustering)
The class labels of training data is unknown Given a set of measurements, observations, etc. with the aim of establishi[......]

阅读全文

Tags: ,

Comments { 0 }

Data Mining 笔记Classification之决策树属性选择方法

一、概述

在decision tree的分类算法中提到了要从多个训练集的样本属性中选择一个属性作为测试条件,将记录划分为多个子集。如何从多个属性中选择一个属性呢。这就需要有一种指标来对属性在待划分的结果集上进行度量。

二、信息增益:Information Gain (ID3)

在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息熵参照

数学之美系列四:怎样度量信息中的介绍:信息熵”(shāng) 是对信息的量化度量,一条信息的信息量大小和它的不确定性有直接的关系。

 

从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。我们希望选择的是最有利于分类实例的属性[......]

阅读全文

Tags: , , ,

Comments { 1 }

Data Mining 笔记Classification之决策树

一、算法概述

是一种类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出;每个树叶结点存放一个类标号。

基本算法

通过递归的方式从上向下,开始的所有训练集中的数据都在根节点。样本数据的属性可以被分类(如果是联系的数据,需要事先离散化)。样本数据基于选定的属性进行分开,通过information gain等统计指标来选择样本考察的属性。

算法终止条件

  • 一个节点上的样本属于一个相同的分类;
  • 没有剩余的属性需要再分割数据
  • 所有样本都考察完毕

三、算法伪代码

四、算法示例

训练集如下,根据训练集数据建立决策树。并判断顾客,有这样四种属性(青年,低收入,非学生,中等信用度) 是否有购买电脑的倾向

id?
年龄?
收[......]

阅读全文

Tags: , ,

Comments { 0 }

Data Mining笔记Classification之贝叶斯分类

一、 概述

概率与数理统计中的贝叶斯公司: bayes

二、算法

  1. X = (x1, x2, …, xn)是一个待分类的项;
  2. 有类别集合C= {C1, C2, …, Cm };
  3. 计算P(C1|X)、 P(C2|X)、 P(C3|X) … P(Cm|X);
  4. ?P(Ci|X) = max{P(C1|X),P(C2|X), P(C3|X)…P(Cm|X)}?那么项X应划分为类Ci
[box type="info" style="rounded"]我的注解:即在X条件下(x其实是组合条件,如年龄等于多少、同时输入那个级别等条件的叠加)Ci发生的几率,几率最大的,就是X落到该分类的可能性最大,则将X划分到该分类中[/box]
? ? ? ??bayes-p(c x)?其中分母P(x)对于所有的分类是一个常数,因此实际上主要比较P(X|Ci)的大小。
? ? ? ?bayes_p(xc0即在属于Ci分类的时候,X的取[......]

阅读全文

Tags: , ,

Comments { 0 }

Classification之Decision Tree Gini Index 完整示例

整理历史邮件的时候pick up出了研一时候的一个基于gini index的classification的作业,包括一个7页纸的功能介绍。作业很精致,文章也挺精致的。能回忆起来,当时白天在教研室做项目,这个小作业是一个半晚上做完的,只记得当时代码写的飞快,键盘敲的很爽。最后根据training data,使用Swing 的JTree画出的Decision Tree很漂亮,最后使用testing data做验证,准确率也很不错。

当时怎么这么爱写E文的,因为当时完全在E文的环境下,上课、作业、项目。唉,现在看着没有那么顺手了,感叹context的影响真是潜移默化,但却足够深远!

代码能跑起来,跑起来效果也挺好,工具很好用,做的也很周到。traning出来的decision tree长得挺好看的,最后还有个基于testing data的对于构造的decision tree的评估。但[......]

阅读全文

Tags: , , , , ,

Comments { 0 }