朴素贝叶斯
朴素贝叶斯是一种基于贝叶斯决策理论的分类方法。
我们用p1(x,y)表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
- 如果 p1(x,y) > p2(x,y),那么类别为1。
- 如果 p2(x,y) > p1(x,y),那么类别为2。
我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。
贝叶斯推论
条件概率:
$$ p(A|B) = \frac{p(AB)}{p(B)}$$
对条件概率公式和全概率公式进行变形:
$$ p(A|B) = p(A)\frac{p(B|A)}{p(B)}$$
我们把P(A)称为“先验概率”(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。
P(A|B)称为“后验概率”(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。
P(B|A)/P(B)称为“可能性函数”(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。
后验概率 = 先验概率 x 调整因子
这就是贝叶斯推断的含义。我们先预估一个“先验概率”,然后加入实验结果,看这个实验到底是增强还是削弱了“先验概率”,由此得到更接近事实的“后验概率”。
在这里,如果“可能性函数”P(B|A)/P(B)>1,意味着“先验概率”被增强,事件A的发生的可能性变大;如果“可能性函数”=1,意味着B事件无助于判断事件A的可能性;如果“可能性函数”<1,意味着”先验概率”被削弱,事件A的可能性变小。
朴素贝叶斯的特点
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。
朴素贝叶斯的一般流程
- 收集数据:可以使用任何方法。后面的实例使用RSS源。
- 准备数据:需要数值型或者布尔型数据。
- 分析数据:有大量特征时,使用直方图效果更好。
- 训练算法:计算不同的独立特征的条件概率。
- 测试算法:计算错误率。
- 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。
使用朴素贝叶斯进行文档分类
以在线社区留言板为例:屏蔽侮辱性的言论,构建一个分类器,过滤侮辱性的言论。
1.准备数据:从文本中构建词向量
1 | def loadDataSet(): |
创建一个词表
1 | def createVocabList(dataSet): |
将词表转化为向量
1 | #遍历查看该单词是否出现,出现该单词则将该单词置1 |
2.训练算法:通过词向量计算概率
利用贝叶斯准则计算概率,伪代码如下所示:
1 | 计算每个类别中的文档数目 |
python实现的朴素贝叶斯训练函数如下:
1 | #朴素贝叶斯分类器训练函数 |
使用拉普拉斯平滑优化后的训练函数:使用拉普拉斯平滑,为了解决0概率的问题。
1 | #优化版训练函数 |
3.测试算法:构建分类函数
1 | #朴素贝叶斯分类函数 |
1 | # 测试函数 |
使用使用朴素贝叶斯过滤垃圾邮件
1.准备数据:切分文本
使用正则表达式来切分句子,其中分隔符是除单词、数字外的任意字符串。
1 | #文本解析,分词,解析为一共字符串列表 |
2.测试算法:使用朴素贝叶斯进行交叉验证
留存交叉验证(hold-out cross validation):随机选择一部分数据作为训练集,而剩余的数据用于测试集。
1 | #垃圾邮件测试函数 |
使用朴素贝叶斯分类器从个人广告中获取区域倾向
1.收集数据:导入 RSS 源
RSS源分类器及高频词去除函数
1 | # 高频词去除函数 |
1 | # RSS源分类器 |
词袋模型:它与函数setOfWords2Vec()几乎完全相同,唯一不同的是每当遇到一个单词时,它会增加词向量中的对应值,而不只是将对应的数值设为1。
1 | #朴素贝叶斯词袋模型 |
这个案例由于RSS源数据进行了更新,测试的数据得不到我们想要的结果。
小结
对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。
参考文章
https://blog.csdn.net/c406495762/article/details/77500679
https://blog.csdn.net/c406495762/article/details/77341116
https://github.com/apachecn/MachineLearning/blob/master/docs/4.%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF.md