如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等-瀚海书香-ChinaUnix博客

瀚海书香forever.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

瀚海书香

博客访问： 3962166
博文数量： 93
博客积分： 3189
博客等级：中校
技术积分： 4229
用户组：普通用户
注册时间： 2009-02-02 13:29

个人简介

出没于杭州和青岛的程序猿一枚，对内核略懂一二

文章分类

全部博文（93）

Scala（1）
Windows编程（1）
数据库（1）
网络安全（1）
杂谈（4）
ARM（1）
linux系统（24）

虚拟化（1）
linux内核分析（32）
ruby（4）
C（7）
linux 编程（4）
linux内核编程（13）
未分配的博文（0）

文章存档

2016年（2）

2015年（3）

2014年（11）

2013年（29）

2012年（16）

2011年（5）

2010年（5）

2009年（22）

我的朋友

BZIP2

bzip2是比gzip更好的压缩工具，但它很慢！别折腾了，我们有办法解决这问题。

以前的做法：

cat bigfile.bin | bzip2 --best > compressedfile.bz2

现在这样：

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2

尤其是针对bzip2，GNU parallel在多核CPU上是超级的快。你一不留神，它就执行完成了。

GREP

如果你有一个非常大的文本文件，以前你可能会这样：

grep pattern bigfile.txt

现在你可以这样：

cat bigfile.txt | parallel --pipe grep 'pattern'

或者这样：

cat bigfile.txt | parallel --block 10M --pipe grep 'pattern'

这第二种用法使用了–block 10M参数，这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法：

cat rands20M.txt | awk '{s+=$1} END {print s}'

现在这样：

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}'

这个有点复杂：parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用，形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令，从而输出最终结果。第一个awk有三个反斜杠，这是GNU parallel调用awk的需要。

WC

想要最快的速度计算一个文件的行数吗？

传统做法：

wc -l bigfile.txt

现在你应该这样：

cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}'

非常的巧妙，先使用parallel命令‘mapping’出大量的wc -l调用，形成子计算，最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗？

常规做法：

sed s^old^new^g bigfile.txt

现在你可以：

cat bigfile.txt | parallel --pipe sed s^old^new^g

…然后你可以使用管道把输出存储到指定的文件里。

阅读(9219) | 评论(4) | 转发(0) |

上一篇：SR-IOV Networking in Xen-论文笔记（1）

下一篇：关于tcp连接的异步connect

给主人留下些什么吧！~~

少林功夫好2015-06-03 09:50:54

gdmmx：再补充一个实验，还是之前的fs.img和bzip2，但是parallel参数多了一个-j 1
# cat tmpfs_re.img | parallel --pipe --recend '' -j 1 -k bzip2 --best > 111.bz2
parallel: Warning: YOU ARE USING --tollef. IF THINGS ARE ACTING WEIRD USE --gnu.
parallel: Warning: --tollef is obsolete and will be retired 20140222.
parallel: Warning: See: http://lists.gnu.org/archive/html/parallel/2013-02/msg00018.html
#&nb

-j参数是jobs的意思，加这个有啥用呢？

回复 | 举报

gdmmx2014-08-27 20:26:07

再补充一个实验，还是之前的fs.img和bzip2，但是parallel参数多了一个-j 1
# cat tmpfs_re.img | parallel --pipe --recend '' -j 1 -k bzip2 --best > 111.bz2
parallel: Warning: YOU ARE USING --tollef. IF THINGS ARE ACTING WEIRD USE --gnu.
parallel: Warning: --tollef is obsolete and will be retired 20140222.
parallel: Warning: See: http://lists.gnu.org/archive/html/parallel/2013-02/msg00018.html
#&nb

回复 | 举报

gdmmx2014-08-27 20:06:31

# bzip2 --best tmpfs_re.img -c > 111.bz2
# file 111.bz2
111.bz2: bzip2 compressed data, block size = 900k
# bunzip2 111.bz2
# md5sum 111 tmpfs_re.img
f151762f56ac9bf35fe4909186d818ad  111
f151762f56ac9bf35fe4909186d818ad  tmpfs_re.img

# rm -f 111
# cat tmpfs_re.img | parallel --pipe --recend '' -k bzip2 --best &

回复 | 举报

gdmmx2014-08-27 19:44:03

今天才发现这篇文章，给力！

但是有一个疑问，已知这些parallel命令的原理是通过spread stdin到多个进程中并行处理，那么并行不会带来乱序的问题么？
上面那几个例子中，grep 'pattern'，awk '{s+=$1} END {print s}'，wc -l这几个都是即使stdin乱序也不影响最终结果。
但是最后那个sed例子，一旦发生stdin乱序，s^old^new^g的输出结果除了old字符串被替换成new之外，恐怕行与行之间的先后顺序也会发生改变吧？

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6