Counting Bloom Filter-zhanglin496-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

mxl&nbsp;ChinaUnix博客zhanglin.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 1029171
博文数量： 442
博客积分： 1146
博客等级：少尉
技术积分： 1604
用户组：普通用户
注册时间： 2010-11-04 12:52

个人简介

123

文章分类

全部博文（442）

RCU机制（2）
tc流量控制（2）
ipv6（1）
内核启动流程（5）
openwrt（7）
bootloader（3）
http（1）
C++（3）
网络概念（0）
多线程编程（2）
常用算法（14）
linux操作（9）
内核同步（26）

内存屏障（5）
linux内核（191）

RCU机制（3）

netfilter-nat分（3）

skb解析（5）

定时器实现（1）

poll分析（4）

proc系统（5）

linux-IPC（13）

netfilter（84）

linux数据结构（17）

linux驱动（11）
git（3）
linux配置（7）
个人经验总结（6）
调试（7）
Unix C（40）
TCP/IP（26）
未分配的博文（87）

文章存档

2017年（3）

2016年（15）

2015年（132）

2014年（52）

2013年（101）

2012年（110）

2011年（29）

我的朋友

最近访客

推荐博文

Counting Bloom Filter

分类：

2015-05-08 10:19:43

原文地址：Counting Bloom Filter 作者：laoliulaoliu_cu

文章来源：http://blog.csdn.net/jiaomeng/archive/2007/01/30/1498283.aspx

焦萌 2007年1月30日

从前面几篇对Bloom Filter的介绍可以看出，标准的Bloom Filter是一种很简单的数据结构，它只支持插入和查找两种操作。在所要表达的集合是静态集合的时候，标准Bloom Filter可以很好地工作，但是如果要表达的集合经常变动，标准Bloom Filter的弊端就显现出来了，因为它不支持删除操作。

Counting Bloom Filter的出现解决了这个问题，它将标准Bloom Filter位数组的每一位扩展为一个小的计数器（Counter），在插入元素时给对应的k（k为哈希函数个数）个Counter的值分别加1，删除元素时给对应的k个Counter的值分别减1。Counting Bloom Filter通过多占用几倍的存储空间的代价，给Bloom Filter增加了删除操作。下一个问题自然就是，到底要多占用几倍呢？

我们先计算第i个Counter被增加j次的概率，其中n为集合元素个数，k为哈希函数个数，m为Counter个数（对应着原来位数组的大小）：

上面等式右端的表达式中，前一部分表示从nk次哈希中选择j次，中间部分表示j次哈希都选中了第i个Counter，后一部分表示其它nk – j次哈希都没有选中第i个Counter。因此，第i个Counter的值大于j的概率可以限定为：

上式第二步缩放中应用了估计阶乘的斯特林公式：

在Bloom Filter概念和原理一文中，我们提到过k的最优值为(ln2)m/n，现在我们限制k ≤ (ln2)m/n，就可以得到如下结论：

如果每个Counter分配4位，那么当Counter的值达到16时就会溢出。这个概率为：

这个值足够小，因此对于大多数应用程序来说，4位就足够了。

关于Counting Bloom Filter最早的论文：

即使一个hash函数，也可能出现冲突的情况，解决：每个hash函数使用独立的hash映射空间。

阅读(870) | 评论(0) | 转发(0) |

0

上一篇：Bloom Filter概念和原理

下一篇：用ipset配置linux防火墙

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们