bloom filter-wqfhenanxc-ChinaUnix博客

wqfhenanxc

首页　| 　博文目录　| 　关于我

wqfhenanxc

博客访问： 1111860
博文数量： 242
博客积分： 10209
博客等级：上将
技术积分： 3028
用户组：普通用户
注册时间： 2008-03-12 09:27

文章分类

全部博文（242）

点滴（2）
数据库相关（3）
Java学习（1）
windows编程（2）
P2P相关（1）
网络安全（3）
汇编语言（3）
unix网络编程（20）
学习C++（26）
思想人生（22）
英语学习（1）
linux系统（30）
history of weste（0）
社会人文（0）
linux c编程（63）
算法（36）

我读算法之美（1）
shell编程（28）
未分配的博文（1）

文章存档

2014年（1）

2013年（1）

2010年（51）

2009年（65）

2008年（124）

我的朋友

相关博文

bloom filter

分类： C/C++

2010-06-11 15:29:36

看了bloom filter的相关内容，写上来分享一下，也方便自己回顾。

设集合S={x1,x2,x3,....xn} 有n个元素， bloom filter使用一个 m 位的数组BF 来表示集合S。初始化时，BF所有位都为0， bloom filter 使用 k 个相互独立的hash函数h1，h2，h3，...,hk，每个hash函数的值域范围都是{1,2,3,...,m}。在添加一个元素x时，分别计算h1(x)、h2(x)、.....、hk(x)的值，并将BF数组中以这些值为下标对应位置为1 。检查一个元素y是否存在时，同样计算h1(y)、h2(y)、......、hk(y)的值，然后检测以这些值为下标的BF数组中对应的位是否为1，若有一个不为1，就表明y不存在于原集合中，若对应位都为1，说明y可能存在于原集合中。注意这里所说的 “可能存在”，是因为有一个false positive（假阳性）的概率。假阳性是说，本来 y 是不存在于bloom fiter中的，但是k个hash函数以y为输入产生的输出在BF数组中所对应的位都是1 。