基本文本处理-强大的sort命令-nba76ers-ChinaUnix博客

Arvil to dreamiforeverlove.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

nba76ers

博客访问： 2889582
博文数量： 471
博客积分： 7081
博客等级：少将
技术积分： 5369
用户组：普通用户
注册时间： 2012-01-04 21:55

文章分类

全部博文（471）

web开发（1）
app开发（4）
tomcat（8）

tomcat配置（8）
Tomcat优化（2）
架构类（4）
gpddddddi（2）
python（32）

经典面试题目（4）

应用开发（1）

python 的we（2）

透彻python编程（14）

python简明教程（10）
web前端开发（8）

css（2）

JS（1）

html（4）
运维自动化（3）

fabric（1）
系统设计题（0）
C的底层知识（0）
智力研究（0）
概率（3）
百度（0）
数组（8）
位存储（3）
递归（0）
算法题（8）
操作系统（2）
java百练（9）
sql百练（13）
linux笔试（4）

linux shell编程（2）

linux面试题（0）
acm总结（3）
图的算法（24）

最大二分匹配（3）

每对顶点间的最短（0）

单源最短路径（2）

最小生成树（4）

拓扑排序（2）

BFS广度优先搜索（6）

DFS深度优先搜索（6）

搜索专题（1）
数据结构（44）

外部排序（1）

stl Map（1）

二叉树（6）

递归专题（0）

堆（0）

优先队列（3）

八大排序与三大查（4）

最优二叉树(哈夫（0）

字符串（8）

B树（0）

红黑树（0）

栈和队列（4）

并查集（不相交集（0）

二叉查找树（4）

Hash散列表（6）

字典树（3）

链表（4）
收集面试（6）
acm（28）

二分搜索专题（3）

快速取幂算法（1）

递推专题（2）

背包问题（2）

贪心算法（3）

动态规划（2）

简单计算（7）

打表（1）

母函数（7）
mysql（85）

sql练习（12）

mysql配置文件优（5）

mysql维护管理（11）

mysql SQL语（9）

性能优化（17）

mysql入门很简单（31）
beautyofprogramm（0）

topK（0）
little java（4）
海量数据专题（2）
spring2.5（15）
struts2（3）
hadoop（4）
java（59）

spring（3）

JVM原理（4）

收集公司笔试（2）

java组件（1）

javaIO（3）

JDK底层实现（5）

jvm 优化系列（3）

线程系列（7）

java反射系列（12）

java 基础用法注（19）
网络编程（20）
linux基础（54）

awk（0）

sed（3）

Linux Shell（18）

linux编程环境（5）

进程管理与监控（8）

linux常用命令解（20）
未分配的博文（6）

文章存档

2014年（90）

2013年（69）

2012年（312）

我的朋友

相关博文

基本文本处理-强大的sort命令

分类： LINUX

2013-02-24 22:15:00

sort的工作原理

sort将文件的每一行作为一个单位，相互比较，比较原则是从首字符向后，依次按ASCII码值进行比较，最后将他们按升序输出（sort默认的排序方式是升序）。

#cat seq.txt

banana

apple

pear

orange

pear

# sort seq.txt

apple

banana

orange

pear

1、sort的-u选项

它的作用很简单，就是在输出行中去除重复行。

#sort -u seq.txt

apple

banana

orange

pear

2、sort的-r选项

sort默认的排序方式是升序，如果想改成降序，就加个-r就搞定了。

# sort -r seq.txt

pear

orange

banana

apple

3、sort的-o选项

你有没有遇到过10比2小的情况。我反正遇到过。出现这种情况是由于排序程序将这些数字按字符来排序了，排序程序会先比较1和2，显然1小，所以就将10放在2前面喽。这也是sort的一贯作风。我们如果想改变这种现状，就要使用-n选项，来告诉sort，“要以数值来排序”！

# sort -r number.txt

# sort -r -n number.txt

4、sort的-o选项

由于sort默认是把结果输出到标准输出，所以需要用重定向才能将结果写入文件，形如sort filename > newfile。但是，如果你想把排序结果输出到原文件中，用重定向可就不行了。

sort -r number.txt > number.txt 竟然将number清空了。

就在这个时候，-o选项出现了，它成功的解决了这个问题，让你放心的将结果写入原文件。这或许也是-o比重定向的唯一优势所在。

# sort -r -n number.txt -o number.txt

cat number.txt

5、sort的-t选项和-k选项

这个文件有三列，列与列之间用冒号隔开了，第一列表示水果类型，第二列表示水果数量，第三列表示水果价格。

那么我想以水果数量来排序，也就是以第二列来排序，如何利用sort实现？

幸好，sort提供了-t选项，后面可以设定间隔符。（是不是想起了cut和paste的-d选项，共鸣～～）

指定了间隔符之后，就可以用-k来指定列数了。

# cat fruit.txt

banana:30:5.5

apple:10:2.5

pear:90:2.3

orange:20:3.4

我们使用冒号作为间隔符，并针对第二列来进行数值升序排序，结果很令人满意。

# sort -n -k2 -t: fruit.txt

apple:10:2.5

orange:20:3.4

banana:30:5.5

pear:90:2.3

6 其他的sort常用选项

-f会将小写字母都转换为大写字母来进行比较，亦即忽略大小写

-c会检查文件是否已排好序，如果乱序，则输出第一个乱序的行的相关信息，最后返回1

-C会检查文件是否已排好序，如果乱序，不输出内容，仅返回1

-M会以月份来排序，比如JAN小于FEB等等

-b会忽略每一行前面的所有空白部分，从第一个可见字符开始比较

7、sort中k选项大讨论

准备素材:第一个域是公司名称，第二个域是公司人数，第三个域是员工平均工资。（除了公司名称，其他的别信，都瞎写的^_^）

# cat netcompany.txt

google 110 5000

baidu 100 5000

guge 50 3000

sohu 100 4500

我想让这个文件按公司的字母顺序排序，也就是按第一个域进行排序

# sort -t' ' -k1 netcompany.txt

baidu 100 5000

google 110 5000

guge 50 3000

sohu 100 4500

按照公司人数排序

# sort -n -t' ' -k2 netcompany.txt

guge 50 3000

baidu 100 5000

sohu 100 4500

google 110 5000

按照公司人数排序，人数相同的按照员工平均工资升序排序：

# sort -n -t' ' -k2 -k3 netcompany.txt

guge 50 3000

sohu 100 4500

baidu 100 5000

google 110 5000

看，我们加了一个-k2 -k3就解决了问题。对滴，sort支持这种设定，就是说设定域排序的优先级，先以第2个域进行排序，如果相同，再以第3个域进行排序。（如果你愿意，可以一直这么写下去，设定很多个排序优先级）

按照员工工资降序排序，如果员工人数相同的，则按照公司人数升序排序：（这个有点难度喽）

# sort -n -t' ' -k3r -k2 netcompany.txt

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

此处有使用了一些小技巧，你仔细看看，在-k 3后面偷偷加上了一个小写字母r。你想想，再结合我们，能得到答案么？揭晓：r和-r选项的作用是一样的，就是表示逆序。因为sort默认是按照升序排序的，所以此处需要加上r表示第三个域（员工平均工资）是按照降序排序。此处你还可以加上n，就表示对这个域进行排序时，要按照数值大小进行排序，举个例子吧：

# sort -t' ' -k3nr -k2n netcompany.txt

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

看，我们去掉了最前面的-n选项，而是将它加入到了每一个-k选项中了。

8、突发奇想，从公司英文名称的第二个字母开始进行排序，

# sort -t' ' -k1.2 netcompany.txt

baidu 100 5000

sohu 100 4500

google 110 5000

guge 50 3000

如果相同的按照员工工资进行降序排序

# sort -t' ' -k 1.2,1.2 -k 3,3nr netcompany.txt

baidu 100 5000

google 110 5000

sohu 100 4500

guge 50 3000

由于只对第二个字母进行排序，所以我们使用了-k 1.2,1.2的表示方式，表示我们“只”对第二个字母进行排序。（如果你问“我使用-k 1.2怎么不行？”，当然不行，因为你省略了End部分，这就意味着你将对从第二个字母起到本域最后一个字符为止的字符串进行排序）。对于员工工资进行排序，我们也使用了-k 3,3，这是最准确的表述，表示我们“只”对本域进行排序，因为如果你省略了后面的3，就变成了我们“对第3个域开始到最后一个域位置的内容进行排序”了。

10 在modifier部分还可以用到哪些选项？

可以用到b、d、f、i、n 或 r。

其中n和r你肯定已经很熟悉了。

b表示忽略本域的签到空白符号。

d表示对本域按照字典顺序排序（即，只考虑空白和字母）。

f表示对本域忽略大小写进行排序。

i表示忽略“不可打印字符”，只针对可打印字符进行排序。（有些ASCII就是不可打印字符，比如\a是报警，\b是退格，\n是换行，\r是回车等等）

阅读(1129) | 评论(0) | 转发(0) |

上一篇：标准输入输出-重定向-管道

下一篇：基本文本处理-uniq命令的使用

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6