Tag Archives | information gain

Data Mining 笔记Classification之决策树属性选择方法

一、概述

在decision tree的分类算法中提到了要从多个训练集的样本属性中选择一个属性作为测试条件,将记录划分为多个子集。如何从多个属性中选择一个属性呢。这就需要有一种指标来对属性在待划分的结果集上进行度量。

二、信息增益:Information Gain (ID3)

在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。信息熵参照

数学之美系列四:怎样度量信息中的介绍:信息熵”(shāng) 是对信息的量化度量,一条信息的信息量大小和它的不确定性有直接的关系。

 

从信息论知识中我们知道,期望信息越小,信息增益越大,从而纯度越高。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。该算法采用自顶向下的贪婪搜索遍历可能的决策树空间。我们希望选择的是最有利于分类实例的属性[......]

阅读全文

Tags: , , ,

Comments { 1 }