Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1842148
  • 博文数量: 38
  • 博客积分: 690
  • 博客等级: 中士
  • 技术积分: 3714
  • 用 户 组: 普通用户
  • 注册时间: 2012-06-27 14:06
文章分类

全部博文(38)

文章存档

2018年(8)

2016年(4)

2015年(2)

2014年(1)

2013年(3)

2012年(20)

分类: 大数据

2016-12-05 12:20:07

最近在学校机器学习相关知识,唉,数学基础太差。看起来好吃力。先啃下了贝叶斯这个基础算法。学习过程中整理一些笔记记录下来。

概念:如果一个事件的结果不影响另一事件的结果,那么这两个事件是独立事件。反之,这两个事件称为非独立事件。两个事件如果不可能同时发生,那么这两个事件是互斥事件

一、乘法公式(联合概率)

公式一:

引申1:P(AB) 表示 事件A 和B都发生的的概率,也可以表示 P(A and B) 或 P(A ∩ B)由此等价于 事件B和A同时发生的概率,得出下列公式, 也叫 “乘法交换定律”

公式二:

引申2:P(A|B) 表示条件概率,表示事件B发生的前提下,事件A发生的概率。如果A,B彼此为独立事件,互补影响。则P(A|B) = P(A),可以得出下列特例公式:

公式三:

引申3:根据公式一,公式二可以推导:

公式四:

引申4:当由2个事件扩展到多个事件

公式五:

二、加法公式

对任意两个事件A,B 有

公式六:


如果 AB为互斥(互不相容)事件,即A发生的话,B不会发生AB=Ф,则 P(AB) = 0

公式七:


扩展到多个事件的加法公式:

公式八:



三、条件概率

设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率(conditional probability)为:

公式九:

四、全概率

设 B1,B2,…是样本空间B一个划分,B1,B2,…. 是彼此互斥事件,A为任一事件,则:即 满足:

  1. B1,B2…. 两两互斥,即 Bi ∩ Bj = ? ,i≠j , i,j=1,2,….,且P(Bi)>0,i=1,2,….;
  2. B1∪B2∪….= B ,则称事件组 B1,B2,…是样本空间B 的一个划分

公式十:


全概率公式的意义在于,当直接计算P(A)较为困难,而P(Bi),P(A|Bi) (i=1,2,…)的计算较为简单时,可 以利用全概率公式计算P(A)。思想就是,将事件A分解成几个小事件,通过求小事件的概率,然后 相加从而求得事件A的概率,而将事件A进行分割的时候,不是直接对A进行分割,而是先找到样本 空间Ω的一个个划分B1,B2,…Bn,这样事件A就被事件AB1,AB2,…ABn分解成了n部分,即 A=AB1+AB2+…+ABn, 每一Bi发生都可能导致A发生相应的概率是P(A|Bi),由加法公式得P(A)=P(AB1)+P(AB2)+….+P(ABn)=P(A|B1)P(B1)+P(A|B2)P(B2)+…+P(A|Bn)P(PBn)。

四、贝叶斯公式(逆概)

全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因(即大事件A已经发生的条件下,分割中的小事件Bi的概率),设B1,B2,…是样本空间B的一个划分,则对任一事件A(P(A)>0), 由条件概率推导出:

公式十一:


Bi 常被视为导致试验结果A发生的”原因“,P(Bi)(i=1,2,…)表示各种原因发生的可能性大小,故称先验概率;P(Bi|A)(i=1,2…)则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率, P(A|B_i) 是该假设下得到这个数据的概率,称为似然度,P(A) 是在任何假设下得到这一数据的概率,称为标准化常量

五、朴素贝叶斯公式

朴素贝叶斯假设各个事件彼此独立,由此根据贝叶斯公式 和 全概率公式推导出推导:

公式十二:



六、朴素贝叶斯分类

假设A表示不同的关键词集合,如{报道,章,学校,秘籍,积分}, 用Ai-n 表示不同的关键词,假设B是不同的文章分类集合,如{教材,武侠小说,新闻},用Bk-m 表示不同的类型文章。那么P(Ai|Bk) 表示 某个关键词在某类文章中出现的概率。 P(Bk|Ai) 则表示 某个 关键词出现的情况下,可以判断为某类文章的概率, 由贝叶斯公式可以知道:


但是,我们一般并不是指根据一个关键词去判断,而是输入一篇文章,文章里面包含多个关键词,我们需要计算 包含关键词1,关键词2….关键词3出现的情况下,为某类文章的概率: 根据朴素贝叶斯公式推导出:


因为A1 ,A2 ,A3 …. An 为独立事件, 所以 推导出


根据联合概率和独立事件



因此得到:

公式十三:


公式十三表示 文章 属于 Bk类型的概率, 更换 Bk, 会的到其他几类的类型文章概率。取其最大值,则为最可能的文章类别所属为:

阅读(11780) | 评论(0) | 转发(1) |
给主人留下些什么吧!~~