Data Mining笔记Classification之贝叶斯分类

一、 概述

概率与数理统计中的贝叶斯公司: bayes

二、算法

  1. X = (x1, x2, …, xn)是一个待分类的项;
  2. 有类别集合C= {C1, C2, …, Cm };
  3. 计算P(C1|X)、 P(C2|X)、 P(C3|X) … P(Cm|X);
  4. ?P(Ci|X) = max{P(C1|X),P(C2|X), P(C3|X)…P(Cm|X)}?那么项X应划分为类Ci
我的注解:即在X条件下(x其实是组合条件,如年龄等于多少、同时输入那个级别等条件的叠加)Ci发生的几率,几率最大的,就是X落到该分类的可能性最大,则将X划分到该分类中
? ? ? ??bayes-p(c x)?其中分母P(x)对于所有的分类是一个常数,因此实际上主要比较P(X|Ci)的大小。
? ? ? ?bayes_p(xc0即在属于Ci分类的时候,X的取特定值的概率,X条件是多个条件的组合,所以是乘积起来,即每个当样本属于Ci分类时各个属性的概率的乘积。

?三、算法示例

考察x的条件是?青年 、收入中等、学生、信用中的情况下是购买还是不购买。

先看下Ci是“购买”的情况

id 年龄段 收入状况 学生 信用度 购买电脑
3
4
5
7
9
10
11
12
13
  • P(青年 | 购买)? = 2/9 = 0.222
  • P(收入中等 | 购买) = 4/9 = 0.444
  • P(学生 | 购买) = 6/9 = 0.667
  • P(信用中 | 购买) = 6/9 = 0.667

根据公式:bayes_p(xc0 P(X | 购买) = 0.222 ×0.444 ×0.667 ×0.667=0.044

再看下不买的情况:

id
年龄
收入状
信用
购买电
1
2
6
8
14
  • P(青年 | 不买)? = 3/5 = 0.6
  • P(收入中等 | 不买) = 2/5 = 0.4
  • P(学生 | 不买) = 1/5 = 0.2
  • P(信用中 | 不买) = 2/5 = 0.4
  • P(X | 不买) = 0.6 ×0.4 ×0.2 ×0.4=0.019

结合P(Ci)

  • p(C买)=9/14=0.643
  • p(C不买)=5/14=0.357
  • P(买|X) = ?P(X|买) *p(C买)/P(X) =?0.044 ×0.643/P(x)=0.028/P(x)
  • P(不买|X) = P(X|不买) *p(C不买)/P(X) =0.019 ×0.357/P(x)=0.007/P(x)
根据公式?P(Ci|X) = max{P(C1|X),P(C2|X), P(C3|X)…P(Cm|X)}
P(Ci|X) = max{P(购买|X),P(不买|X)}

即在x的条件是?青年 、收入中等、学生、信用中的情况下,购买的可能性大于不购买的可能性。?

四、算法总结:

总结:

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

特点:

  • 属性可以离散、也可以连续;
  • 数学基础坚实、分类效率稳定;
  • 对缺失和噪声数据不太敏感;
  • 属性如果不相关,分类效果很好;如果相关,不低于决策树

原创文章。为了维护文章的版本一致、最新、可追溯,转载请注明: 转载自idouba

本文链接地址: Data Mining笔记Classification之贝叶斯分类


, ,

No comments yet.

发表评论