贝叶斯算法-oop_ming-ChinaUnix博客

喜欢编程的鱼

首页　| 　博文目录　| 　关于我

oop_ming

博客访问： 2009101
博文数量： 606
博客积分： 9991
博客等级：中将
技术积分： 5725
用户组：普通用户
注册时间： 2008-07-17 19:07

文章分类

全部博文（606）

C-sharp（1）
数据建模（1）

UML（1）
数据挖掘（8）

文本分类（2）
服务器（2）

Apache Http serv（2）
性能调优（3）

JProfiler（3）
网络技术（1）
信息安全（4）
搜索引擎（22）

Apache Lucene Ma（1）

googleapi（3）

nutch（10）

heritrix（1）

lucene（7）
设计模式（13）

J2EE模式（2）

行为模式（4）

结构模式（1）

创建模式（3）
web（88）

FreeMarker（1）

Weblogic（3）

JSF（1）

Ajax（12）

Tomcat（5）

xml（6）

servlet（4）

JSP（19）

css（2）

javascript（30）

html（5）
开发工具（38）

Flex Builder（10）

NetBeans（0）

eclipse（28）
算法设计（6）
操作系统（30）

Linux（24）

windows（2）

Solaris（4）
数据库（65）

Memcached（2）

NoSQL（0）

MS SQL（18）

MySQL（13）

Oracle（32）
软件工程（2）
Java（249）

iBATIS（1）

junit（3）

J2ME（1）

SWT（2）

webservice（17）

quartz（6）

J2EE（11）

J2SE（80）

面试题集（2）

问题集锦（1）

其他（8）

ANT（3）

jboss（1）

hibernate（56）

spring（33）

struts（23）
未分配的博文（73）

文章存档

2011年（10）

2010年（67）

2009年（155）

2008年（386）

我的朋友

相关博文

贝叶斯算法

分类： Java

2009-05-21 15:48:44

贝叶斯公式是在1763年提出来的：

假定B1,B2,……是某个过程的若干可能的前提，则P(Bi)是人们事先对各前提条件出现可能性大小的估计，称之为验前概率.如果这个过程得到了一个结果A，那么贝叶斯公式提供了我们根据A的出现而对前提条件做出新评价的方法.P(Bi∣A)既是对前提Bi的出现概率的重新认识，称 P(Bi∣A)为验后概率.经过多年的发展与完善，贝叶斯公式以及由此发展起来的一整套理论与方法，已经成为概率统计中的一个冠以“贝叶斯”名字的学派，在自然科学及国民经济的许多领域中有着广泛应用.

一．贝叶斯过滤算法的基本步骤

1) 收集大量的垃圾邮件和非垃圾邮件，建立垃圾邮件集和非垃圾邮件集。
2) 提取邮件主题和邮件体中的独立字串例如 ABC32，￥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。
3) 每一个邮件集对应一个哈希表，hashtable_good对应非垃圾邮件集而hashtable_bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系。
4) 计算每个哈希表中TOKEN串出现的概率P=（某TOKEN串的字频）/（对应哈希表的长度），替换存储哈希表的映射关系，概率P替换字频，TOKEN串到概率P的映射关系。

5) 综合考虑hashtable_good和hashtable_bad，推断出当新来的邮件中出现某个TOKEN串时，该新邮件为垃圾邮件的概率。数学表达式为：
A事件----邮件为垃圾邮件;
t1,t2 …….tn代表TOKEN串
则P（A|ti）表示在邮件中出现TOKEN串ti时，该邮件为垃圾邮件的概率。
设
P1（ti）=（ti在hashtable_good中的值）
P2（ti）=（ti在hashtable_ bad中的值）
则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）]；

假设有三个哈希表hashtable_good、hashtable_ bad和hashtable_ unkown

设
P1（ti）=（ti在hashtable_good中的值）
P2（ti）=（ti在hashtable_ bad中的值）

P3（ti）=（ti在hashtable_unkown中的值）
则 P（A|ti）= P1（ti）/[（P1（ti）+ P2（ti）+ P3（ti）]；

四、五..个哈希表类似

*/
6) 建立新的哈希表 hashtable_probability存储TOKEN串ti到P（A|ti）的映射
7) 至此，垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表 hashtable_probability可以估计一封新到的邮件为垃圾邮件的可能性。
当新到一封邮件时，按照步骤2）生成TOKEN串。查询hashtable_probability得到该TOKEN 串的键值。
假设由该邮件共得到N个TOKEN串，t1,t2…….tn, hashtable_probability中对应的值为P1，P2，。。。。。。PN，
P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个TOKEN串t1,t2…….tn时，该邮件为垃圾邮件的概率。
由复合概率公式可得
P(A|t1 ,t2, t3……tn)=（P1*P2*。。。。PN）/[P1*P2*。。。。。PN+（1-P1）*（1-P2）*。。。（1-PN）]
当P(A|t1 ,t2, t3……tn)超过预定阈值时，就可以判断邮件为垃圾邮件。

二．贝叶斯过滤算法举例

例如：一封含有“法学家”字样的垃圾邮件 A
和一封含有“法律”字样的非垃圾邮件B
根据邮件A生成hashtable_ bad，该哈希表中的记录为
法：1次
学：1次
家：1次
计算得在本表中：
法出现的概率为0。3
学出现的概率为0。3
家出现的概率为0。3
根据邮件B生成hashtable_good，该哈希表中的记录为：
法：1
律：1
计算得在本表中：
法出现的概率为0。5
律出现的概率为0。5
综合考虑两个哈希表，共有四个TOKEN串：法学家律
当邮件中出现“法”时，该邮件为垃圾邮件的概率为：
P=0。3/（0。3+0。5）=0。375
出现“学”时：
P=0。3/（0。3+0）=1
出现“家“时：
P=0。3/（0。3+0）=1
出现“律”时
P=0/（0+0。5）=0；
由此可得第三个哈希表：hashtable_probability 其数据为：
法：0。375
学：1
家：1
律：0

当新到一封含有“功律”的邮件时，我们可得到两个TOKEN串，功律
查询哈希表hashtable_probability可得
P（垃圾邮件| 功）=1
P （垃圾邮件|律）=0
此时该邮件为垃圾邮件的可能性为：
P=（0*1）/[0*1+（1-0）*（1-1）]=0
由此可推出该邮件为非垃圾邮件

Java 代码：

/* Description：贝叶斯算法判断垃圾邮件 * * author:Tony * * date: 2007/10/23 */ import org.apache.lucene.analysis.Token; import org.apache.lucene.analysis.cn.*; import java.util.*; import java.io.*; public class Bayes { private Hashtable badHash; private Hashtable goodHash; private Hashtable probabilityHash; //初始化 public void init()throws Exception { badHash = new Hashtable(); goodHash = new Hashtable(); buildEmailHash("D:\\JavaWorkSpace\\Bayes\\src\\data\\badEmail",badHash); buildEmailHash("D:\\JavaWorkSpace\\Bayes\\src\\data\\goodEmail",goodHash); buildNewHashTable(); } //创建垃圾邮件哈希表 public void buildEmailHash(String path, Hashtable table) throws Exception { String badInput = readFile(path); ChineseTokenizer tokenizer = new ChineseTokenizer( new StringReader(badInput)); Token token; Hashtable tempHash = new Hashtable(); double rate = 0.0; int total = 0; while ((token = tokenizer.next()) != null) { total++; String temp = token.termText(); if(table.containsKey(temp)) { int counter = (Integer)tempHash.get(temp); counter++; tempHash.remove(temp); tempHash.put(temp, counter); } else { tempHash.put(temp, 1); } } //将垃圾邮件中字符及其概率放入badhash中 for(Iterator it = tempHash.keySet().iterator(); it.hasNext();) { String key = (String)it.next(); rate = (Integer)tempHash.get(key)/total; table.put(key, rate); } } /*创建新的probability Hash表，其中的概率表示在邮件中出现 TOKEN 串 ti 时，该邮件为垃圾邮件的概率 */ public void buildNewHashTable() { for(Iterator it = badHash.keySet().iterator(); it.hasNext();) { String key = (String)it.next(); // P （ A|ti ） =P2 （ ti ） /[ （ P1 （ ti ） +P2 （ ti ） ] double badRate = (Double)badHash.get(key); double allRate = badRate; if(goodHash.containsKey(key)) { allRate += (Double)goodHash.get(key); } probabilityHash.put(key, (badRate/allRate)); } } //读文件 public String readFile(String path)throws Exception { BufferedReader br = new BufferedReader( new FileReader(path)); String str = ""; while(true) { if(br.readLine() == null) break; str += br.readLine(); } br.close(); return str; } //判断是否为垃圾邮件返回true表示非垃圾邮件返回false表示是垃圾邮件 public boolean judgeEmail(String email, double weight) throws Exception { //P(A|t1 ,t2, t3……tn)=（P1*P2*……PN）/[P1*P2*……PN+（1-P1）*（1-P2）*……（1-PN）] ChineseTokenizer tokenizer = new ChineseTokenizer( new StringReader(email)); Token token; boolean flag = true; double rate = 1.0; double tempRate = 1.0; double finalRate = 0.0; while ((token = tokenizer.next()) != null) { String key = token.termText(); if(!probabilityHash.containsKey(key)) { break; } else { double temp = (Double)probabilityHash.get(key); tempRate *= 1 - temp; rate *= temp; } } finalRate = rate/(rate + tempRate); if(finalRate > weight) flag = false; return flag; } public static void main(String args[]) throws Exception { Bayes bayes = new Bayes(); bayes.init(); String email =""; double weight = 0.5; if(bayes.judgeEmail(email, weight)) { System.out.println("It is OK!"); } else { System.out.println("It is wrong!"); } } }

阅读(1164) | 评论(0) | 转发(0) |

上一篇：JAVA中文分词算法

下一篇：nutch工作原理剖析

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6