全部博文(470)
分类:
2009-04-09 13:49:10
请用SHELL完成下列排序:
有一个文件,每行记录了字符串(长度为1-127字节),大约有1亿行,请排出重复次数最高的前1000条。(可以用awk、sed等工具)。 比如问如下: aaa ccc ccc ddd aaa aaa bbb 那么重复次数为: aaa 3次 ccc 2次 ddd 1次 bbb 1次 当然不局限于shell,这只是一个工具而已,关键在与排序算法 欢迎各位不吝赐教~~~ PS:请尽量考虑效率问题。因为数据量实在是太大了。。。。 |
您对本贴的看法: |
|
|
|
风云使者
CU编号: 692772 注册:2008-4-16 最后登录: 2009-04-09 帖子: 精华:0 状态:...在线... [] [] [博客] |
|
(黑哥)
精灵使
CU编号: 631768 注册:2007-10-22 最后登录: 2009-04-09 帖子: 精华:0 状态:...在线... [] [] [博客] |
|
(我在学习,我要进步)
精灵使
打破水锅问到底。 CU编号: 713644 注册:2008-6-3 最后登录: 2009-04-09 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
(我在学习,我要进步)
精灵使
打破水锅问到底。 CU编号: 713644 注册:2008-6-3 最后登录: 2009-04-09 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
天使
CU编号: 639775 注册:2007-11-10 最后登录: 2009-04-09 帖子: 精华:0 状态:...在线... [] [] [博客] |
|
(Tim)
[] [] [博客] |
|
天使
CU编号: 347943 注册:2005-12-11 最后登录: 2009-04-09 帖子: 精华:0 状态:...在线... [] [] [博客] |
|
新手
CU编号: 1323563 注册:2009-4-7 最后登录: 2009-04-07 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
(我在学习,我要进步)
精灵使
打破水锅问到底。 CU编号: 713644 注册:2008-6-3 最后登录: 2009-04-09 帖子: 精华:0 状态:...离线... [] [] [博客]
|
|
chinaunix网友2010-05-04 12:33:14
create table sort_table(name vchar(255),time int,index name,index time) cat datafile| insert into sort_talbe or update sort_table select from sort_table limit 1000 order by time;