Chinaunix首页 | 论坛 | 博客
  • 博客访问: 85042
  • 博文数量: 34
  • 博客积分: 1640
  • 博客等级: 上尉
  • 技术积分: 395
  • 用 户 组: 普通用户
  • 注册时间: 2008-04-17 14:37
文章分类
文章存档

2008年(34)

我的朋友
最近访客

分类:

2008-04-22 17:38:40

1. 统计文本中每个单词出现的次数,假定genesis为文本文件
   tr -sc ’A-Za-z’ ’\012’ < genesis | sort | uniq -c
   解释: tr -sc ’A-Za-z’ ’\012’用于分离文本genesis中的单词,然后每行显示一个单词。sort用于对文本中的句子按行排序。当每一行只有一个单词的时候,sort也就是对所有的单词排序。uniq -c 用于删除连续的相同的单词,并记录单词的连续次数。由于前面使用sort对所有单词排序了,所以uniq -c也就是统计每个单词的出现次数。
阅读(506) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~