Archive | 八月, 2013

Data Mining 笔记Classification之决策树属性选择方法

一、概述

在decision tree的分类算法中提到了要从多个训练集的样本属性中选择一个属性作为测试条件,将记录划分为多个子集。如何从多个属性中选择一个属性呢。这就需要有一种指标来对属性在待划分的结果集上进行度量。

二、信息增益:Information Gain (ID3)

在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息熵参照

数学之美系列四:怎样度量信息中的介绍:信息熵”(shāng) 是对信息的量化度量,一条信息的信息量大小和它的不确定性有直接的关系。

 

从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。我们希望选择的是最有利于分类实例的属性[......]

阅读全文

Tags: , , ,

Comments { 1 }

Data Mining 笔记Classification之决策树

一、算法概述

是一种类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出;每个树叶结点存放一个类标号。

基本算法

通过递归的方式从上向下,开始的所有训练集中的数据都在根节点。样本数据的属性可以被分类(如果是联系的数据,需要事先离散化)。样本数据基于选定的属性进行分开,通过information gain等统计指标来选择样本考察的属性。

算法终止条件

  • 一个节点上的样本属于一个相同的分类;
  • 没有剩余的属性需要再分割数据
  • 所有样本都考察完毕

三、算法伪代码

四、算法示例

训练集如下,根据训练集数据建立决策树。并判断顾客,有这样四种属性(青年,低收入,非学生,中等信用度) 是否有购买电脑的倾向

id?
年龄?
收[......]

阅读全文

Tags: , ,

Comments { 0 }

密码保护:基于通信统计特征识别代理网络设备

无法提供摘要。这是一篇受保护的文章。

Tags: , , ,

Comments { 0 }