300万输入信息中最热门的前十条问题-蜡炬成灰泪始干-ChinaUnix博客

蜡炬成灰泪始干的ChinaUnix博客

首页　| 　博文目录　| 　关于我

蜡炬成灰泪始干

博客访问： 3628
博文数量： 2
博客积分： 25
博客等级：民兵
技术积分： 20
用户组：普通用户
注册时间： 2012-06-15 09:52

文章分类

全部博文（2）

未分配的博文（2）

文章存档

2012年（2）

我的朋友

GFree_Wi

最近访客

推荐博文

300万输入信息中最热门的前十条问题

分类：

2012-07-06 14:51:21

原文地址：300万输入信息中最热门的前十条问题作者：ubuntuer

搜索的输入信息是一个字符串，统计300万输入信息中的最热门的前十条，我们每次输入的一个字符串为不超过255byte,内存使用只有1G,
请描述思想，写出算法（c语言），空间和时间复杂度

首先我们计算下看内存是不是够用,其实想都不用想如果够用的话,题中就不用说内存了^_^

300*256w > 100000w

再说你的结构体,就算是链表也是

typedef struct list

{

char str[256];

int frequency;

struct list* next;

}LIST;

当然也可以使用结构体数组...

typedef struct array

{

char str[256];

int frequency;

}ARRAY;

1.假设内存够用,用数组吧

ARRAY array[300w];实际是<300w的有重复的....

接下来的方法就是10亿个数中取大的10个数了,你可以二叉堆,也可以快排的思想.

2.这里内存不够用,就只有先把这些数丢在磁盘了。

input.txt //原始文件输入信息(有重复)

num.txt //输入信息加次数(无重复)

那么如何由input.txt到num.txt呢

先从input.txt中读取记录,先hash_find如果没找到再hash_add

3.得到这个之后就是上面说的二叉堆 or 快排只取一边的理论上的O(N)的做法了

当然这里内存也是不够快排思想的,我这里这是说说这种思路而已

最后

1.先利用hash得到num.txt

//其实你真要算,这里还可以说是外排,不过外排太麻烦,也没什么效率,只是可行性

2.再二叉堆

第一次不上代码,直接这么分析,也不知道效果如何,每次都写代码太累了...就想还有人在我blog抱怨malloc的mem, 没有free!!!!

oh my god!!!你爱看不看,分不清主次的人。多说不宜,显得我的愤青!!!什么时候网络的愚民们能不以批判的眼光看人,多些宽容,此真乃国家之幸也。

阅读(602) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：我对总线的理解和总结

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6