AWK相关积累-g_programming-ChinaUnix博客

os.boygzprogramming.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

g_programming

博客访问： 2445547
博文数量： 298
博客积分： 7876
博客等级：准将
技术积分： 5500
用户组：普通用户
注册时间： 2011-02-23 13:39

文章分类

全部博文（298）

/etc目录下文件详（1）
PHP相关（1）
Expect（2）
学习总结（4）
守护进程（1）
Linux图形相关（3）

科学绘图工具（1）

对话框（2）
ASCII表（0）
Linux常用命令详（10）
Ubuntu安装（1）
Linux网络编程相（4）
多进程和多线程的（1）
Python相关（18）

Python应用（9）

Python基础（9）
/proc目录下文件（5）
Shell相关（58）

Awk应用（4）

Shell应用（13）

Shell基础（23）

Sed相关（6）

Awk基础（12）
编写安全的代码（5）
各种常用协议（1）
加密和解密（1）
数据结构（8）
心得转载（1）
《Unix网络编程卷（16）

基本函数和结构体（16）
Linux服务器相关（12）

服务器基础（3）

NFS服务器（1）

TFTP服务器（1）

DHCP服务器（1）

SVN服务器（1）

Samba服务器（1）

FTP服务器（2）

WEB服务器（2）
生活点滴（4）
进程相关（15）
线程相关（7）
常见错误（12）
U-BOOT（2）
Linux内核移植（2）
《Linux网络编程（20）
ARM-linux（4）
《Linux设备驱动（0）
《Unix环境高级编（0）
C程序设计（23）

Windows（9）

Linux（14）
Linux系统（34）

邮件相关（0）

Linux系统时间相（0）

Linux系统简介（9）

Linux文件相关（9）

Linux性能管理（4）

Linux程序管理（5）

Linux网络管理（7）
Linux驱动（19）
ACM初学（1）
未分配的博文（2）

文章存档

2013年（2）

2012年（142）

2011年（154）

我的朋友

相关博文

AWK相关积累

分类： Python/Ruby

2012-04-25 23:29:50

TOC \o "1-3" \h \z \u （一）文本间隔.. PAGEREF _Toc323325111 \h

1. 在每行后追加一空行（包括空行）.. PAGEREF _Toc323325112 \h

2. 双空行转换为单空行.. PAGEREF _Toc323325113 \h

3. 截去HTML以角括号框起的标记标签.. PAGEREF _Toc323325114 \h

4. 指定以行首abc字符为RS. PAGEREF _Toc323325115 \h

（二）选择性的显示特定行.. PAGEREF _Toc323325116 \h

1. 读取文件*.12的所有文件的第五到第七行.. PAGEREF _Toc323325117 \h

2. 随机打印5%的文本.. PAGEREF _Toc323325118 \h

3. 查找文件内文本的方式.. PAGEREF _Toc323325119 \h

4. 显示部分文本（指定行号范围，多文本）100-150行.. PAGEREF _Toc323325120 \h

5．显示两个正则表达式之间的文本（包含）.. PAGEREF _Toc323325121 \h

6．显示两个正则表达式之间的文本（不包含）.. PAGEREF _Toc323325122 \h

7. 匹配多行‘abc\nefg’ PAGEREF _Toc323325123 \h

（三）选择性的删除特定行.. PAGEREF _Toc323325124 \h

1. 去除文件中的重复项.. PAGEREF _Toc323325125 \h

2. 合并file1和file2，除去重复项.. PAGEREF _Toc323325126 \h

3. 提取文件1中有，但文件2中没有.. PAGEREF _Toc323325127 \h

（四）文本转换.. PAGEREF _Toc323325128 \h

1. 格式转换（合并同一标签）.. PAGEREF _Toc323325129 \h

2. 四栏表格调换第二和第三栏（制表符分隔）.. PAGEREF _Toc323325130 \h

3. 制表符分隔转换为&. PAGEREF _Toc323325131 \h

4. 去除字符串内重复的（从左到右）.. PAGEREF _Toc323325132 \h

5. 去除行内重复的列（从左到右）.. PAGEREF _Toc323325133 \h

6. 将一行按照行首拆分为多行.. PAGEREF _Toc323325134 \h

（五）目录相关.. PAGEREF _Toc323325135 \h

1. 获取文件夹名/root/home (/root/home/tt.txt) PAGEREF _Toc323325136 \h

2. 获取文件名tt.txt (/root/home/tt.txt). PAGEREF _Toc323325137 \h

（六）正则表达式匹配.. PAGEREF _Toc323325138 \h

1. 匹配行内有模式/regexp/. PAGEREF _Toc323325139 \h

（七）特殊应用.. PAGEREF _Toc323325140 \h

1. 单词计数程序wc. PAGEREF _Toc323325141 \h

2. 计算第n栏的和（空格为分隔）.. PAGEREF _Toc323325142 \h

3. 统计/pattern/在文件中出现的次数（可能pattern在多行）.. PAGEREF _Toc323325143 \h

sed -e 's/$/\n/' file

awk 'BEGIN{OFS='\n\n'} {print}' file

awk 'BEGIN{OFS='\n\n'} 1' file

awk '{print $0 "\n"}' file

awk '{print;print ""}' file

gawk 'BEGIN{RS="\n *\n"} 1' file

mawk 'BEGIN{ORS = " "; RS = "<[^<>]*>"} 1' file

BEGIN{RS="\nabc"}

awk 'FNR>4&&FNR<8' *.12 >urfile

awk 'rand() < 0.05' file

egrep 'pattern|pattern' files

awk '/pattern|pattern/' files

awk '/pattern|pattern/ {print FILENAME ":" FNR ":" $0 }' files #推荐

awk '(100 <= FNR) && (FNR >= 150) && /pattern/ \

{ print FILENAME ":" FNR ":" $0 }' files

awk '/pattern1/,/pattern2/'

awk '/pattern1/{while(getline) if(match($0,"pattern2")) break; else print;}'

’

awk 'x~/abc$/&&/^efg/{print x"\n"$0}{x=$0}'

awk '!a[$0]++' file(s)

awk 'NR==FNR{a[$0]=1;print}   #读取file1，建立数组a，下标为$0，并赋值为1，然后打印
NR>FNR{                   #读取file2
if(!(a[$0])) {print }      #如果file2 的$0不存在于数组a中，即不存在于file1，则打印。
}' file1 file2

awk 'NR==FNR{a[$0]=1}           #读取file2，建立数组a，下标为$0，并赋值为1
NR>FNR{                   #读取file1
if(!(a[$0])) {print }      #如果file1 的$0不存在于数组a中，即不存在于file2，则打印。
}' file2 file1

输入文件

1. a 45

2. a 32

3. a 53

4. a 34

5. b 41

6. b 62

7. b 23

8. b 34

9. b 65

期望输出得到的文件
a 45 H1 32 H2 53 H3 34 H4
b 41 H1 62 H2 23 H3 34 H4 65 H5

（1）若文件a，b有序

awk '{if(v==$1){printf FS $2 FS "H"++i}else{i=0;printf (NR==1?"":RS) $0 FS "H"++i;};v=$1}' FILE

（2）若文件a，b无序

awk '{a[$1]++;b[$1]=b[$1]$2 OFS"H"a[$1] OFS;}END{for(i in a)print i,b[i]}' file

注：这里看到输出格式，我的思想被禁锢了，都是想到的是每次输出a 45，但是因为结果需要多的一个H4，所以我应该想到每次输出可以是a 45 H1,这样最后一个就不用做特殊处理了

awk -F'\t' -v OFS='\t' '{print $1,$3,$2,$4}' old > new

awk 'BEGIN{FS=OFS="\t"}{print $1,$3,$2,$4}' old > new

sed -e 's/\t/\&/g' file

awk 'BEGIN{FS='\t';OFS="&"}{$1 = $1; print} ' file #$1 = $1必须要，才能使OFS转换起作用

4.字符串 'aaabcccaaabbbccc'，连续的字母作为一个子字符串，从左往右，去重复后，变为 'aaabcccbbb'

4. awk -F '' '{while(i++<=NF){s=s$i;if($i!=$(i+1)){if(!a[s]++)printf s;s=""}}}'

5.net123 aaa bbb net123

5.net456 ccc ddd net456

5.结果：

5.net123 aaa bbb

5.net456 ccc ddd

awk '{for(i=1;i<=NF;i++)if(a[$i]++)$i="";NF+=0;delete a}1'

awk '{for(i=2;i<=NF;i++)print $1,$i}'

原文：

1. 69 2 3 5 0

2. 70 2 3 6 0

3. 71 2 3 6 0

我想根据第一列为基础，后面有四列就输出四行，比如输出结果为

1. 69 2

2. 69 3

3. 69 5

4. 69 0

5. 70 2

6. 70 3

7. 70 6

8. 70 0

9. 71 2

10. 71 3

11. 71 6

12. 71 0

awk 'BEGIN{OFS=FS="/"}{$NF=""}1' test #$NF将最后一个字段赋值为空

tt.txt (/root/home/tt.txt)

awk -F'/' '{print $NF}'

$0 ~ /regexp/ #不匹配$0 !~ /regexp/

awk '{C += length($0)+1; W += NF} END{printNR,W,C}'

awk -v COLUMN=n '{sum += $COLUMN } END{print sum}' file

awk '{$0=n$0;c+=gsub(/China/,",");n=$NF}END{print c}' 1.text #忽略行后空格

awk -F '[ ]+' '{$0=n$0;c+=gsub(/China/,",");n=$NF}END{print c}' 1.text #不忽略行后空格

# gsub(/China/,",")防止出现

#ChinChina

#aa被认为是两个的情况

阅读(2996) | 评论(0) | 转发(2) |

上一篇：SED相关积累

下一篇：Linux命令相关积累

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6