案例-snowtty-ChinaUnix博客

冰雪塵埃snowtty.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

snowtty

博客访问： 5434806
博文数量： 1144
博客积分： 11974
博客等级：上将
技术积分： 12312
用户组：普通用户
注册时间： 2005-04-13 20:06

文章分类

全部博文（1144）

技术--Oracle&MyS（112）
编程--python编程（21）
编程--perl程序（183）
技术--防火墙类（9）
技术--samba类（7）
技术--apache类（18）
技术--netfilter（7）
工作--工作??（62）
生活--情感生活（116）
学习--英语学习（24）
学习--早先日志（46）
工作--周报总结（36）
学习--学习笔记（45）
技术--Rsync维护（11）
技术--OPENldap（1）
技术--squid维护（9）
技术--DNS 维护（17）
技术--FTP 维护（7）
技术--qmail维护（128）
技术--网络技术（26）
技术--linux 类（183）

openvpn（0）

nagios（10）
编程--awk&sed（11）
编程--shell编程（50）
未分配的博文（15）

文章存档

2017年（2）

2016年（14）

2015年（10）

2014年（28）

2013年（23）

2012年（29）

2011年（53）

2010年（86）

2009年（83）

2008年（43）

2007年（153）

2006年（575）

2005年（45）

我的朋友

相关博文

案例

分类： LINUX

2006-07-12 10:17:20

文件处理:说明:要处理的文件为参数1,用$1表示;对比文件为all_accounts.dat ;待处理文件每一行的第6列和对比文件中所有的行比较,若没有匹配行则删除该行.筛选结果输出到新文件.
用循环处理,脚本如下(对于数据比较部分不知道能否在一条awk语句中实现)

CODE:[Copy to clipboard]#!/bin/sh
#diff_accounts
if (! [ -f $1 ]) || [ $# -ne 1 ];then
    echo "error,no input file or file not exsit!"
    echo "usage: ./diff_accounts your_data_file"
    exit 1
fi
echo "diff_accounts starting ..."
sed 's/|/ /g' $1 >tmp.data
while read A1 A2 A3 A4 A5 A6 A7
do
    ALL=$A1\|$A2\|$A3\|$A4\|$A5\|$A6\|$A7
    if grep ^$A6$ all_accounts.dat >/dev/null 2>&1
    then
        echo $ALL >> yes_$1
    else
        echo $ALL >> none_$1
    fi
done < tmp.data
echo "diff_accounts done"

all_accounts.dat

pay01
pay02
pay03
pay04
pay1
perfmon
pesudo
pki
ppp
qd
qdmanager
query
queryrpt
read
redo

待处理文件:
102|李某|192.168.211.26|192.168.1.115|23|pesudo|1
110|张某|192.168.11.71|192.168.1.5|23|root|1
113|五大|192.168.11.71|192.168.2.36|23|pay01|1
115|杨三|192.168.11.71|192.168.2.11|23|ppaayy0011|1
115|小二|192.168.11.72|192.168.2.11|23|perfmon|1
115|阿猪|192.168.11.71|192.168.2.11|23|sybase119|1
115|老二|192.168.11.71|192.168.2.197|23|ppp|1
115|江小|192.168.11.72|192.168.2.210|23|sybase|1
awk -F '|' 'NR==FNR{a[$1]++}
NR>FNR&&a[$6]' all_accounts.dat $1
新手导航？

awk 的确强大
awk -F '|' 'NR==FNR{a[$1]++};NR>FNR&&a[$6]' all_accounts.dat my.dat

当NR==FNR,也就是读第一个文件all_accounts.dat 时,动作给a[]赋值;NR>FNR&&a[$6] 此句是读第二个文件my.dat时,a[$6]为真,也就是$6在a[]中有定义;缺省动作{print $0}
不知解释正确否?
何实测如下代码在速度上没有明显改进，甚至相反。

CODE:[Copy to clipboard]awk -F '|' 'NR==FNR{a[$1]};NR>FNR&&$6 in a' all_accounts.dat my.dat
从逻辑上分析，这段代码的每次循环做的工作要少一些。我把my.dat加大了很多，速度上没发现明显改变。
也许这个用法在all_accounts.dat很大的时候速度上有明显改进。
希望楼主测一下

QUOTE:
原帖由 r2007 于 2006-7-11 10:54 发表
为何实测如下代码在速度上没有明显改进，甚至相反。

CODE:[Copy to clipboard]awk -F '|' 'NR==FNR{a[$1]};NR>FNR&&$6 in a' all_accounts.dat my.dat
从逻辑上分析，这段代码的每次循环做的工作要少一些。我把 ...
实际数据,all_accounts.dat 有500多行,my.dat有几千行
下面是结果:
./diff_accounts telnet_2006-6-30.csv
diff_accounts starting ...
diff_accounts done
# times
0m2.270s 0m0.070s
0m0.450s 0m0.290s

# awk -F '|' 'NR==FNR{a[$1]++};NR>FNR&&a[$6]' all_accounts.dat telnet_2006-6-30.csv > tttttt
# times
0m2.330s 0m0.070s
0m0.460s 0m0.290s

阅读(1031) | 评论(0) | 转发(0) |

上一篇：abs案例3

下一篇：VIM的几个小技巧

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6