判断几个数是否出现在40亿个不重复的数中-ubuntuer-ChinaUnix博客

人生如逆旅，我亦是行人！江湖人称wsjjeremy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ubuntuer

博客访问： 4907318
博文数量： 930
博客积分： 12070
博客等级：上将
技术积分： 11448
用户组：普通用户
注册时间： 2008-08-15 16:57

文章分类

全部博文（930）

html5（0）
python（1）
google_gnu fans（8）
高品位（2）
perl（4）
mobile_dev（2）
openssl（1）
libcurl（2）
windows内核安全（5）
自己的C_LIB（5）
高性能MySQL学习（94）
多线程（4）
ldd学习笔记（3）
netfilter（3）
笔试题（5）
师徒之言传身教（1）
转载（15）
work（146）
introduction to （9）
debug（3）

intern（3）
mobile ip（0）
毕业设计（2）
linux防火墙（10）
c++（16）
database（13）
CentOS（11）
data structure（5）
kernel（50）
DIY（4）
酷软（19）
iptables（9）
linux c（105）

string（19）
APUE学习笔记（7）
facetea（13）
shell（68）
tcp_ip（23）
apache（3）
linux（258）

正则表达式（5）
未分配的博文（1）

文章存档

2011年（60）

2010年（220）

2009年（371）

2008年（279）

我的朋友

相关博文

判断几个数是否出现在40亿个不重复的数中

分类： LINUX

2009-08-26 18:44:05

看到不重复,海量数据!!!!bit排序...

1个int型可以表示32个数,也就是4byte就可以表示32个数....

40*(10^8)/32 = 1.25*(10^8)个int型 = 5*(10^8)byte/(10^6) = 500M，也就是说500M的内存就可以搞定这40亿个不重复的数了...我不停的重复时希望不会误导大家,最近CU总是出现些低级的回复...居然默认网关是MASK都出来了,汗!!! route -n好了说远了.

bit排序我那个排序大全里就有,大致意思就是

A[i>>5] |= 1<<(i&0x1F)

A[0] = 1;

A[1>>5] = 10;

A[2>>5] = 100;

...

A[31>>5] = 1(31个0)

发现这32个数都是A[0]!!!!

判断一个数是否出现就是 (A[i>>5] & (1<<(i&0x1F)))是否不为0就可以了....

这样的好处就是只用遍历一遍,可以求出任何数是否存在,其实现在这40亿个数也都排好序了,这是强大的...

唯一就是还是内存也有点恐怖!!!!

当然这题还有个解法,属于我这种hash狂热份子的,我最近只要海量,字符串就自然的想起hash...先对要判断是否存在的N个数做hash,然后遍历40亿个数看是否存在于hash中...这个的缺点是每次改变要查询的数据时,要重新做hash,也要重新遍历40亿个数,但是内存占用少,只用N个数的内存...这属于投机取巧^_^

阅读(1262) | 评论(0) | 转发(0) |

上一篇：关于不同类型指针的一点小问题

下一篇：MYSQL学习笔记2

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6