朴素贝叶斯

目录 NLP&ML

0. 概述

朴素贝叶斯之所以朴素是因为整个形式化过程中只做最原始、最简单的假设;

 

1. 朴素贝叶斯的优缺点:

  • 优点:在数据较少的情况下仍然有效,可以处理多类别问题;
  • 缺点:对于输入数据的准备方式较为敏感;
  • 使用数据类型:标称型数据(目前理解为离散型数据);

 

2. 朴素贝叶斯中有两个假设:

  • 假设每个特征之间相互独立,即一个特征出现的可能性与其他特征出现与否没有关系;
  • 每个特征同等重要;

 

3. 实现方式

朴素贝叶斯分类器通常有两种实现方式:

  • 一种基于贝努利模型实现,基于贝努利的实现方式中不考虑词在文档中出现的次数,只考虑出不出现,因此在这个意义上相当于假设词是等权重的。
  • 一种基于多项式模型实现,基于多项式模型考虑文档中的出现次数;

 

4. 实际计算时需要考虑的问题:

  • 利用贝叶斯分类器对文档进行分类时,要计算多个概率的乘积获取文档属于某个类别的概率,即p(w0|1)p(w1|1)p(w2|1)。如果其中的一个概率值为0,那么最后的乘积也为0;为了降低这种影响,可以将所有词的出现次数初始化为1,并将分母初始化为2;
  • 另一个问题是下溢出,这是由于太多很小的数相乘造成的。(相乘后数值太小,导致程序四舍五入得到0),可以对乘积取对数;

 

5. 参考代码

 

6. 参考文献:

  • 《机器学习实战》

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注