awk 对比两个文件中的数据项,输入到新文件-ztguang-ChinaUnix博客

张同光：Hello_everyone!ztguang.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

ztguang

博客访问： 6777873
博文数量： 1159
博客积分： 12444
博客等级：上将
技术积分： 12570
用户组：普通用户
注册时间： 2008-03-13 21:34

文章分类

全部博文（1159）

Android---Mobile（164）
编程-C/C++（104）
服务计算-物联网-（65）

物联网（2）

服务（1）

大数据（1）

云计算（5）

安全（4）
Web技术（101）
教材/著作（10）
linux内核（39）
Kali（1）
操作系统原理（16）
Linux操作系统RHE（268）

入门导读（3）

教学进度表-大纲（4）

Linux简介与安装（57）

Linux的用户界面（14）

系统管理（31）

磁盘与文件管理（48）

软件包管理（37）

组建Linux局域网（22）

提供Internet服务（21）

MySQL与PHP（12）

系统管理高级（4）

Shell编程（11）
嵌入式系统开发实（4）

第1章-嵌入式系统（0）

第2章-嵌入式系统（0）

第3章-嵌入式软件（1）

第4章-BootLoader（0）

第5章-Linux在ARM（0）

第6章-根文件系统（0）

第7章-嵌入式Linu（0）

第8章-嵌入式Linu（0）
信息安全技术实用（16）

第1章-信息安全概（2）

第2章-物理安全技（0）

第3章-基础安全技（0）

第4章-操作系统安（6）

第5章-网络安全技（4）

第6章-数据库系统（0）

第7章-应用安全技（1）

第8章-容灾与数据（0）
随想--&--相册（10）

相册（5）
论文（13）
IT & Linux文章（28）
教学--选修--考试（12）
嵌入式开发（9）
嵌入式实验（17）

skyeye（3）

qemu（9）
学生成果（16）
教育（48）
2009级嵌入式方向（51）
2010级嵌入式方向（80）
健身与保健（12）
信息发布（27）
嵌入式资料（14）
网文（34）
未分配的博文（0）

文章存档

2016年（126）

2015年（350）

2014年（56）

2013年（91）

2012年（182）

2011年（193）

2010年（138）

2009年（23）

我的朋友

相关博文

awk 对比两个文件中的数据项,输入到新文件

分类： LINUX

2015-11-25 22:19:22

谢谢参与解答，awk相关问题。
现有两个文件，内容样式如下

1420862364.685037 50365 seq 11608:13056
1420862364.777130 50366 seq 13056:14504
1420862364.777142 50367 seq 14504:15952
1420862364.778324 50368 seq 15952:17400
1420862364.778332 50369 seq 17400:18848
1420862364.780798 50370 seq 18848:20296
1420862364.780810 50371 seq 20296:21744
省略x万行

第一列是时间（unix），第二列是ip数据包id，第三列是数据包类型，第四列是数据包内数据序列号。
文件file1来自发信端，文件file2来自收信端，因此两个文件中的数据大致类似，除了file2的时间部分可能会有迟延上的变化，而且某些时候会因为丢包，部分数据行丢失。

现在要求，对比file1和file2，根据id列区分数据包，输出file1中的时间1和file2中的时间2到新文件，样式如下
1420862364.881564 1420862365.881564 50391 seq 49256:50704
对于丢包（即file2中没有找到与file1中相同id行的情况），在time2的位置上输出x字样
1420862364.881564 x 50391 seq 49256:50704
要求写出简单的处理思路，带适当注释，用awk实现。
全部符合条件的加20点分数。

++++++++++++++++++++++++++++

用awk数组来做。

点击(此处)折叠或打开

awk 'ARGIND==1 {w[$2]=$1}
ARGIND==2 {
flag=0;
for(a in w)
if($2==a) {
flag=1;
print $1,w[a],$2,$3,$4;
break;
}
if(!flag)
print $1,"x",$2,$3,$4
}' file2 file1

ARGIND==1 表示处理的是第一个文件 file2

ARGIND==2 表示处理的是第二个文件 file1

原则是：内容较少的文件先处理，遍历读入并保存到数组，以要比较的值为数组下标（这里就是第二列的id值），需要打印显示的内容存为对应的元素值（这里就是第一列的时间值）。然后再处理内容较多的文件，对其每一行内容都使用遍历数组下标进行比较。

这里设置了一个flag来标识file1中的id在数组中（file2中）是否存在。

由于你的数据文件有上万行，所以速度肯定快不了。

追问：

谢谢解答，意思基本看懂了，但是在终端上运行没有结果，我尝试输出到file3，但是enter之后一瞬间就回到提示符了，file3是空文件。请再帮帮忙。

追答：

点击(此处)折叠或打开

dos2unix file1 file2
awk 'ARGIND==1 {w[$2]=$1}
ARGIND==2 {
flag=0;
for(a in w)
if($2==a) {
flag=1;
print $1,w[a],$2,$3,$4;
break;
}
if(!flag)
print $1,"x",$2,$3,$4;
}' file2 file1 >file3

我本地试过没问题，所以怀疑是不是file1和file2的格式问题。先用dos2unix转一下格式看看。

阅读(1588) | 评论(0) | 转发(0) |

上一篇：安装processmaker-3.0—worker—super—manager—APPLICATION表

下一篇：(OK) 刘姐实验中的大数据分析—awk—paste—system

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6