linux 下用egrep多条件过滤效率-wjlcn-ChinaUnix博客

wjlcnwjlcn.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

wjlcn

博客访问： 514099
博文数量： 65
博客积分： 2925
博客等级：上尉
技术积分： 1306
用户组：普通用户
注册时间： 2009-07-01 10:56

个人简介

2013

文章分类

全部博文（65）

TC/TT（0）
mysql（21）
dataguard（3）
HPUX（2）
oracle-安装迁移（3）
goldengate（1）
oracle 管理（7）

oracle11G（1）
Oracle-备份与恢（1）
IBM-lotus（1）
IBM-AIX（8）

基础知识（8）
perl（3）

模块使用（0）
linux（15）
未分配的博文（0）

推荐博文

相关博文

linux 下用egrep多条件过滤效率

分类： LINUX

2012-10-26 15:41:07

dump_test_file.sql 文件大小4.2GB
1.过滤单个条件：
$ time cat -n dump_test_file.sql |egrep "CREATE DATABASE \/\*\!32312 IF NOT EXISTS\*\/"
  2326  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db1` /*!40100 DEFAULT CHARACTER SET utf8 */;
10594  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db2` /*!40100 DEFAULT CHARACTER SET latin1 */;
14254  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db3` /*!40100 DEFAULT CHARACTER SET utf8 */;

real 0m11.936s
user 0m7.358s
sys    0m12.659s

2.过滤单个条件
$ time cat -n dump_test_file.sql |egrep "Dump completed on"
14628  -- Dump completed on 2012-05-19  4:01:32

real 0m12.569s
user 0m8.986s
sys    0m11.718s

3.合并过滤上面2个条件：
$ time cat -n dump_test_file.sql |egrep "CREATE DATABASE \/\*\!32312 IF NOT EXISTS\*\/|Dump completed on"
  2326  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db1` /*!40100 DEFAULT CHARACTER SET utf8 */;
10594  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db2` /*!40100 DEFAULT CHARACTER SET latin1 */;
14254  CREATE DATABASE /*!32312 IF NOT EXISTS*/ `db3` /*!40100 DEFAULT CHARACTER SET utf8 */;
14628  -- Dump completed on 2012-05-19  4:01:32

real 3m8.444s
user 3m3.850s
sys    0m13.049s

为什么第三次执行的时间，比前面2次时间相加还久？？？

还好egrep 过滤3个或更多条件时，过滤的时间跟2个条件差不多。。。
上面执行过滤的时候用了cat -n 是因为需要知道过滤出来的结果的所在行号；若直接用egrep的话，执行速度会快5%左右；

还测试一下，过滤一个230GB的文件，单个条件的过滤需要19分钟，当时的IO 读 220rMB/s，egrep 单线程cpu使用率大约20%；而过滤2个(或2个以上)条件的话，则大概需要3小时，当时IO 读 23rMB/s，egrep 单线程cpu使用率大约90%；

***********************************************

有个网友建议加-P参数
在这个例子中，如果将改成：
time grep -n -P  "CREATE DATABASE \/\*\!32312 IF NOT EXISTS\*\/|Dump completed on" dump_test_file.sql
***过滤结果省略****
real 0m11.117s
user 0m10.009s
sys    0m1.106s

grep过滤多条件的速度会快很多，在这里-P参数挺有用的
   -P, --perl-regexp
            Interpret PATTERN as a Perl regular expression.

对于大文件来说-F会更加快，消耗的cpu更加少，单线程cpu 40% 左右；上面的其他grep操作时，cpu在80%-95%之间
如：time grep -n -F -e 'CREATE DATABASE /*!32312 IF NOT EXISTS*/' -e 'Dump completed on' dump_test_file.sql

***过滤结果省略****

real 0m4.453s
user 0m3.290s
sys 0m1.163s

之前用grep时，基本上都是小文件，结果很快就出来了；
最近用grep从几GB，甚至几百GB的文件中，过滤多条件的时候，效率问题就出来了；
还好grep有相关的参数，加上-P，特别是加上-F参数时，会比不加参数快很多。

阅读(7629) | 评论(0) | 转发(0) |

上一篇：对于同一张表update带来的效率问题

下一篇：mysql 字符集

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6