全部博文(470)
分类:
2009-05-04 20:53:17
请用SHELL完成下列排序:
有一个文件,每行记录了字符串(长度为1-127字节),大约有1亿行,请排出重复次数最高的前1000条。(可以用awk、sed等工具)。 比如问如下: aaa ccc ccc ddd aaa aaa bbb 那么重复次数为: aaa 3次 ccc 2次 ddd 1次 bbb 1次 当然不局限于shell,这只是一个工具而已,关键在与排序算法 欢迎各位不吝赐教~~~ PS:请尽量考虑效率问题。因为数据量实在是太大了。。。。 |
您对本贴的看法: |
|
|
|
风云使者
CU编号: 692772 注册:2008-4-16 最后登录: 2009-04-30 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
(黑哥)
精灵使
CU编号: 631768 注册:2007-10-22 最后登录: 2009-05-04 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
天使
CU编号: 347943 注册:2005-12-11 最后登录: 2009-05-04 帖子: 精华:0 状态:...在线... [] [] [博客] |
|
(暗夜星空)
精灵使
休息休息 CU编号: 713644 注册:2008-6-3 最后登录: 2009-05-04 帖子: 精华:0 来自:广州<-->杭州 状态:...离线... [] [] [博客] |
|
(黑哥)
精灵使
CU编号: 631768 注册:2007-10-22 最后登录: 2009-05-04 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
新手
CU编号: 1323563 注册:2009-4-7 最后登录: 2009-04-13 帖子: 精华:0 状态:...离线... [] [] [博客] |
|
(搓澡小能手)
版主-精灵使
CU编号: 204000 注册:2004-12-1 最后登录: 2009-05-01 帖子: 精华: 来自:大连 状态:...离线... [] [] [博客] |
|