使用grep、sed、awk删除大文件包含另一个文件大量重复的记录 -运维之路-ChinaUnix博客

运维之路见闻

首页　| 　博文目录　| 　关于我

运维之路

博客访问： 424496
博文数量： 105
博客积分： 0
博客等级：民兵
技术积分： 889
用户组：普通用户
注册时间： 2016-01-23 21:45

个人简介

目前在一家电信公司就职报表开发工程师，2010年开始从事运维方面的工作，期间从事过业务维护工程师、自动化运维工程师，2016年转为报表开发工程师。有耐心，抗压力、爱折腾，喜欢研究自动化工具。

文章分类

全部博文（105）

大数据之HIVE（2）
热爱生活（2）
oracle存储过程（9）
Redis相关知识（2）
服务器类（0）
SHELL（21）
Webligic.（3）
Excel（1）
Mysql（6）
Java（9）
Python（6）
LINUX（25）

知识库（3）

linux命令（4）
Oracle（19）
未分配的博文（0）

相关博文

使用grep、sed、awk删除大文件包含另一个文件大量重复的记录

分类：系统运维

2017-08-08 11:22:34

脚本实现如下：
前面一篇说了400w删除2千的记录速度还行。但是超过上万的记录时候就会报参数过长，因此写了这个程序：
批量处理、批量排除的思路
#!/bin/sh
acount=$(awk -F'|' '{if($6!=null) print $6}' 20170806.UPAY.OnLineRefund |uniq -u |wc -l)
if [ $acount == 0 ]
then
echo "没有重复的订单、退出程序"
exit
else
echo "有重复的订单"
awk -F'|' '{if($6!=null) print $6}' 20170806.UPAY.OnLineRefund |sort|uniq -d > UPAY.txt
mv 20170806.UPAY.OnLineRefund 20170806_0.UPAY.txt
n=$(($acount/1000))
m=$(($n+1))
echo "有$m批次需要删除"
for ((i=1;i<=$m;i++))
do
echo "$m+++$i"
j=$(($i-1))
nbeg=$(($j*1000+1))
nend=$(($i*1000))
echo "$nbeg+++$nend"
aa=$(sed -n "$nbeg,${nend}p" UPAY.txt|awk '{printf "|"$1}')
bb=`echo $aa|sed 's/.//'`
echo "$bb"
grep -v -E "$bb" 20170806_${j}.UPAY.txt > 20170806_${i}.UPAY.txt
done
echo "end"
fi

阅读(1718) | 评论(0) | 转发(0) |

上一篇： VSFTPD全攻略（/etc/vsftpd/vsftpd.conf文件详解）

下一篇：Linux之Shell的算术运算

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6