分类:
2010-08-07 12:35:33
准备一个测试文本:
# cat list.txt
1 baidu
2 google
3 sina
2 google
4 sohu
5 qq
实现1.去除重复行
实现2. 去除交集,只取出不同的部分
#cat list.txt |sort|uniq -u
1 baidu
3 sina
4 sohu
5 qq
瞧,重复行google不见了。
实现3.取出相同行部分
#cat list.txt |sort|uniq -d接下来练练手,网上流传一道百度的面试题,如下:
处理以下文件内容,将域名取出并进行计数排序,如处理得到如下结果:
域名的出现的次数 域名
可以使用/perl/php/c任意一种
cat url.txt|awk -F/ '{print $3}'|sort -r|uniq -c|awk '{print $1"\t"$2}'