简述bloom filter的作用及原理-shenyanxxxy-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

沈岩shenyan.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 1935019
博文数量： 211
博客积分： 464
博客等级：下士
技术积分： 3794
用户组：普通用户
注册时间： 2011-01-24 18:25

个人简介

阿弥陀佛

文章分类

全部博文（211）

机器学习（2）
Go语言学习（1）
设计模式（3）
nginx源码阅读（3）
存储系统源码分析（2）
HTTP协议（3）
系统源码学习（6）
网页开发（1）
搜索引擎（2）
shell脚本（1）
算法（14）

堆排序（0）

堆排序（0）
内核（20）

虚拟化技术（6）
经验（47）

debug（1）

百度霸面（0）
程序设计（15）

UNIX编程（2）

面向对象Ｃ＋＋（1）
杂事（5）
感悟（46）

处理器体系结构（2）

设计（0）

面试（1）
存储技术（29）

Mysql（1）

ceph（2）

文件系统（9）

学习memcached（1）
未分配的博文（11）

文章存档

2020年（2）

2019年（3）

2018年（5）

2017年（6）

2016年（10）

2015年（9）

2014年（73）

2013年（90）

2012年（13）

我的朋友

最近访客

推荐博文

相关博文

简述bloom filter的作用及原理

分类：架构设计与优化

2013-01-24 15:56:58

处理大数据，比如hbase中常常会提到bloom filter 的概念。这个精简的数据结构是干嘛的呢？

他的作用就是判断某个元素是否属于这个集合。

方法是：对于集合A ,设置一个m位的位数组b。并给定k个hash函数。

for i in 0...k

for elem in A(遍历整个集合)

setbit(maparray,hash(k,elem)) (根据第k个hash函数计算出一个值，并将该位设置为1，如果已经设置为1，则不重复设置)。

如果要判断一个元素是否是属于这个集合的话，依次调用k个hash函数，当然会映射到位数组b的k个位置，如果映射到的位置不为1，那么就说明他不是该集合当中的。

但是bloom filter 的致命伤是他的计算并不是每次都是准确的，可能会有失误，将不属于这个集合的元素识别为这个集合的元素。比如y1 映射到的地方出现了0，说明y1不为这个集合的元素，y2就是这个集合的元素，因为y2映射的地方都是1.

这是典型的以错误率换空间和时间的例子。

阅读(3650) | 评论(0) | 转发(0) |

1

上一篇：zfs中的锁的使用

下一篇：合并IO代码分析

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们