300万输入信息中最热门的前十条问题-ubuntuer-ChinaUnix博客

人生如逆旅，我亦是行人！江湖人称wsjjeremy.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ubuntuer

博客访问： 4865267
博文数量： 930
博客积分： 12070
博客等级：上将
技术积分： 11448
用户组：普通用户
注册时间： 2008-08-15 16:57

文章分类

全部博文（930）

html5（0）
python（1）
google_gnu fans（8）
高品位（2）
perl（4）
mobile_dev（2）
openssl（1）
libcurl（2）
windows内核安全（5）
自己的C_LIB（5）
高性能MySQL学习（94）
多线程（4）
ldd学习笔记（3）
netfilter（3）
笔试题（5）
师徒之言传身教（1）
转载（15）
work（146）
introduction to （9）
debug（3）

intern（3）
mobile ip（0）
毕业设计（2）
linux防火墙（10）
c++（16）
database（13）
CentOS（11）
data structure（5）
kernel（50）
DIY（4）
酷软（19）
iptables（9）
linux c（105）

string（19）
APUE学习笔记（7）
facetea（13）
shell（68）
tcp_ip（23）
apache（3）
linux（258）

正则表达式（5）
未分配的博文（1）

文章存档

2011年（60）

2010年（220）

2009年（371）

2008年（279）

我的朋友

相关博文

300万输入信息中最热门的前十条问题

分类： LINUX

2009-08-13 20:05:21

搜索的输入信息是一个字符串，统计300万输入信息中的最热门的前十条，我们每次输入的一个字符串为不超过255byte,内存使用只有1G,
请描述思想，写出算法（c语言），空间和时间复杂度

首先我们计算下看内存是不是够用,其实想都不用想如果够用的话,题中就不用说内存了^_^

300*256w > 100000w

再说你的结构体,就算是链表也是

typedef struct list

{

char str[256];

int frequency;

struct list* next;

}LIST;

当然也可以使用结构体数组...

typedef struct array

{

char str[256];

int frequency;

}ARRAY;

1.假设内存够用,用数组吧

ARRAY array[300w];实际是<300w的有重复的....

接下来的方法就是10亿个数中取大的10个数了,你可以二叉堆,也可以快排的思想.

2.这里内存不够用,就只有先把这些数丢在磁盘了。

input.txt //原始文件输入信息(有重复)

num.txt //输入信息加次数(无重复)

那么如何由input.txt到num.txt呢

先从input.txt中读取记录,先hash_find如果没找到再hash_add

3.得到这个之后就是上面说的二叉堆 or 快排只取一边的理论上的O(N)的做法了

当然这里内存也是不够快排思想的,我这里这是说说这种思路而已

最后

1.先利用hash得到num.txt

//其实你真要算,这里还可以说是外排,不过外排太麻烦,也没什么效率,只是可行性

2.再二叉堆

第一次不上代码,直接这么分析,也不知道效果如何,每次都写代码太累了...就想还有人在我blog抱怨malloc的mem, 没有free!!!!

oh my god!!!你爱看不看,分不清主次的人。多说不宜,显得我的愤青!!!什么时候网络的愚民们能不以批判的眼光看人,多些宽容,此真乃国家之幸也。

阅读(1558) | 评论(0) | 转发(1) |

上一篇：hash应用之字符串替换

下一篇：多个字符串数组里面找出为输入字符串数组匹配的数组

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6