decision tree | idouba

Tag Archives | decision tree

Data Mining 笔记Classification之决策树

一、算法概述

是一种类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出;每个树叶结点存放一个类标号。

基本算法

通过递归的方式从上向下,开始的所有训练集中的数据都在根节点。样本数据的属性可以被分类(如果是联系的数据,需要事先离散化)。样本数据基于选定的属性进行分开,通过information gain等统计指标来选择样本考察的属性。

算法终止条件

  • 一个节点上的样本属于一个相同的分类;
  • 没有剩余的属性需要再分割数据
  • 所有样本都考察完毕

三、算法伪代码

四、算法示例

训练集如下,根据训练集数据建立决策树。并判断顾客,有这样四种属性(青年,低收入,非学生,中等信用度) 是否有购买电脑的倾向

id?
年龄?
收[......]

阅读全文

Tags: , ,

Comments { 0 }

Classification之Decision Tree Gini Index 完整示例

整理历史邮件的时候pick up出了研一时候的一个基于gini index的classification的作业,包括一个7页纸的功能介绍。作业很精致,文章也挺精致的。能回忆起来,当时白天在教研室做项目,这个小作业是一个半晚上做完的,只记得当时代码写的飞快,键盘敲的很爽。最后根据training data,使用Swing 的JTree画出的Decision Tree很漂亮,最后使用testing data做验证,准确率也很不错。

当时怎么这么爱写E文的,因为当时完全在E文的环境下,上课、作业、项目。唉,现在看着没有那么顺手了,感叹context的影响真是潜移默化,但却足够深远!

代码能跑起来,跑起来效果也挺好,工具很好用,做的也很周到。traning出来的decision tree长得挺好看的,最后还有个基于testing data的对于构造的decision tree的评估。但[......]

阅读全文

Tags: , , , , ,

Comments { 0 }