diff和patch是一对工具,在数学上来说,diff是对两个集合的差运算,patch是对两个集合的和运算。
diff比较两个文件或文件集合的差异,并记录下来,生成一个diff文件,这也是我们常说的patch文件,即补丁文件。
patch能将diff文件运用于 原来的两个集合之一,从而得到另一个集合。举个例子来说文件A和文件B,经过diff之后生成了补丁文件C,那么着个过程相当于 A -B = C ,那么patch的过程就是B+C = A 或A-C =B。
因此我们只要能得到A, B, C三个文件中的任何两个,就能用diff和patch这对工具生成另外一个文件。
这就是diff和patch的妙处。下面分别介绍一下两个工具的用法:
1. diff的用法
diff后面可以接两个文件名或两个目录名。 如果是一个目录名加一个文件名,那么只作用在那么个目录下的同名文件。
如果是两个目录的话,作用于该目录下的所有文件,不递归。如果我们希望递归执行,需要使用-r参数。
命令diff A B >C ,一般A是原始文件,B是修改后的文件,C称为A的补丁文件。
不加任何参数生成的diff文件格式是一种简单的格式,这种格式只标出了不一样的行数和内容。我们需要一种更详细的格式,可以标识出不同之处的上下文环境,这样更有利于提高patch命令的识别能力。这个时候可以用-c开关。
2. patch的用法
patch用于根据原文件和补丁文件生成目标文件。还是拿上个例子来说
patch A C 就能得到B, 这一步叫做对A打上了B的名字为C的补丁。
之一步之后,你的文件A就变成了文件B。如果你打完补丁之后想恢复到A怎么办呢?
patch -R B C 就可以重新还原到A了。
所以不用担心会失去A的问题。
其实patch在具体使用的时候是不用指定原文件的,因为补丁文件中都已经记载了原文件的路径和名称。patch足够聪明可以认出来。但是有时候会有点小问题。比如一般对两个目录diff的时候可能已经包含了原目录的名字,但是我们打补丁的时候会进入到目录中再使用patch,着个时候就需要你告诉 patch命令怎么处理补丁文件中的路径。可以利用-pn开关,告诉patch命令忽略的路径分隔符的个数。举例如下:
A文件在 DIR_A下,修改后的B文件在DIR_B下,一般DIR_A和DIR_B在同一级目录。我们为了对整个目录下的所有文件一次性diff,我们一般会到DIR_A和DIR_B的父目录下执行以下命令
diff -rc DIR_A DIR_B >C
这个时候补丁文件C中会记录了原始文件的路径为 DIR_A/A
现在另一个用户得到了A文件和C文件,其中A文件所在的目录也是DIR_A。 一般,他会比较喜欢在DIR_A目录下面进行patch操作,它会执行
patch
但是这个时候patch分析C文件中的记录,认为原始文件是./DIR_A/A,但实际上是./A,此时patch会找不到原始文件。为了避免这种情况我们可以使用-p1参数如下
patch -p1
此时,patch会忽略掉第1个”/”之前的内容,认为原始文件是 ./A,这样就正确了。
最后有以下几点注意:
1. 一次打多个patch的话,一般这些patch有先后顺序,得按次序打才行。
2. 在patch之前不要对原文件进行任何修改
3. 如果patch中记录的原始文件和你得到的原始文件版本不匹配(很容易出现),那么你可以尝试使用patch, 如果幸运的话,可以成功。大部分情况下,会有不匹配的情况,此时patch会生成rej文件,记录失败的地方,你可以手工修改。
##################################################################
diff
diff [命令行选项] 原始文件 新文件 [> patch文件]
下面介绍三个最为常用选项:
-r 是一个递归选项,设置了这个选项,diff会将两个不同版本源代码目录中的所有对应文件全部都进行一次比较,包括子目录文件。
-N 选项确保补丁文件将正确地处理已经创建或删除文件的情况。
-u 选项以统一格式创建补丁文件,这种格式比缺省格式更紧凑些。
-a patch里可以包含二进制文件
由 -e 或 -f 标志产生的编辑脚本无法创建由单个组成的行。(周期)。
-f 以不适合 ed 编辑器的格式创建输出,按照在 -e 标志下产生的逆向顺序显示从 File1 到 File2 的转换的必要修改。
-h 如果要更改的部分比较短而且分隔清晰,则执行备用的比较可能会更快。-h 标志可用于任意长度的文件。
-c、-C、-D、-e、-f 和 -n 标志无法与 -h 标志一起使用。当使用 -h 标志时,除了 -b 标志,其他标志一律忽略。
-i 忽略字母大小写。例如,小写 a 被认为同大写 A 一样。
-l 长输出格式。每个由文本文件比较 diff 命令获得的结果通过命令 pr 输送分页。在报告所有文本文件不同之处后,其他不同之处将被记忆
和总结。
-n 产生类似于 -e 标志创建的输出,但是顺序相反,而且在每一插入或删除命令上进行更改计数。这是修订控件系统(RCS)所用的格式。
-r 使 diff 命令的应用程序递归到遇到的公共子目录。
-s 报告相同的文件,否则不提。
-S [ File ] 当比较目录时,忽略在 File 变量指定的文件之前整理名称的文件。
-S 标志只用于 Directory1 和 Directory2 参数指定的目录。如果您将 -r 标志与 -S 标志一起使用, -S 标志在 Directory1 和 Directory2 子目录中不进行递归。
-t 在输出行扩展制表符。典型输出或者 -c 标志输出会添加字符到每一行首,这会影响初始行的缩进,使得输出列表难以解释。该标志则保留原始源的缩进。
-w 忽略所有空格和制表符,将所有其他空白字符串视为一致。例如,if ( a == b ) 与 if(a==b) 相等。
它的输出在stdout上,所以你可能需要把它重定向到一个文件。diff的输出有“传统格式”和“统一格式”之分,现在大都使用统一格式:
传统格式示例:
[hahalee@builder]$ diff a.txt b.txt
1a2
> here we insert a new line <:(小于符号,冒号)开始的第一个文件中的所有受影响行
3d3
< why not this third line? >(大于符号)开始的第二个文件中的所有受影响行
统一格式示例:
[hahalee@builder]$ diff -u a.txt b.txt
--- a.txt Thu Apr 6 15:58:34 2000
+++ b.txt Thu Apr 6 15:57:53 2000
@@ -1,3 +1,3 @@
This is line one
+here we insert a new line
and this is line two
-why not this third line?
通过比较可以看出,传统格式的patch文件比较小,除了要删除/插入的行外没有冗余信息。统一格式则保存了上下文(缺省是上下各三行,最少需要两 行),这样,patch的时候可以允许行号不精确匹配的情况出现。另外,在patch文件的开头明确地用---和+++标示出原始文件和当前文件,也方便 阅读。要选用统一格式,用 u 开关。
退出值 0 表示没有不同,1 表示找到不同处,2 表示出错。
通常,我们需要对整个软件包做修改,并生成一个patch文件,下面是典型的操作过程。这里就要用到前面介绍的几个命令行开关了:
tar xzvf software.tar.gz # 展开原始软件包,其目录为software
cp _a software software-orig # 做个修改前的备份
cd software
[修改,测试……]
cd ..
diff _ruNa software-orig software > software-my.patch
现在我们就可以保存software-my.patch做为这次修改的结果,至于原始软件包,可以不必保存。等到下次需要再修改的时候,可以用patch命令把这个补丁打进原始包,再继续工作。比如是在linux kernel 上做的工作,就不必每次保存几十兆修改后的源码了。这是好处之一,好处之二是维护方便,由于unified patch格式有一定的模糊匹配能力,能减少原软件包升级带来的维护工作量(见后)
如下
$ cat file1
123
456
789
$ cat file2
789
456
123
$
diff两个文件:
$ diff file1 file2
1,2d0
< 123
< 456
3a2,3
>; 456
>; 123
这个结果所表示的意思不是你认为的那样,而是
1,2d0表示删除原file1的1,2行
3a2,3表示在原file1的第3行后插入file2的2,3行
执行完以上两部后,file1就等同于file2
其实我们对命令diff的理解缺乏深度,diff的实际是为了使得file1转变成file2,而为了达到转换则必须先进行比较,得出的那些结果只不过是diff的副产品。
#####################################################################
patch
patch [options] [originalfile] [< patchfile]
-pn patch level(n是数字) -b[后缀] 生成备份,缺省是.orig
下面介绍几个最常用选项:
-p0 选项要从当前目录查找目的文件(夹)
-p1 选项要忽略掉第一层目录,从当前目录开始查找。
patch程序默认从stdin读入,所以用了输入重定向。
参 数:
-b或--backup 备份每一个原始文件。
-B<备份字首字符串>或--prefix=<备份字首字符串> 设置文件备份时,附加在文件名称前面的字首字符串,该字符串可以是路径名称。
-c或--context 把修补数据解译成关联性的差异。
-d<工作目录>或--directory=<工作目录> 设置工作目录。
-D<标示符号>或--ifdef=<标示符号> 用指定的符号把改变的地方标示出来。
-e或--ed 把修补数据解译成ed指令可用的叙述文件。
-E或--remove-empty-files 若修补过後输出的文件其内容是一片空白,则移除该文件。
-f或--force 此参数的效果和指定"-t"参数类似,但会假设修补数据的版本为新 版本。
-F<监别列数>或--fuzz<监别列数> 设置监别列数的最大值。
-g<控制数值>或--get=<控制数值> 设置以RSC或SCCS控制修补作业。
-i<修补文件>或--input=<修补文件> 读取指定的修补问家你。
-l或--ignore-whitespace 忽略修补数据与输入数据的跳格,空格字符。
-n或--normal 把修补数据解译成一般性的差异。
-N或--forward 忽略修补的数据较原始文件的版本更旧,或该版本的修补数据已使用过。
-o<输出文件>或--output=<输出文件> 设置输出文件的名称,修补过的文件会以该名称存放。
-p<剥离层级>或--strip=<剥离层级> 设置欲剥离几层路径名称。
-f<拒绝文件>或--reject-file=<拒绝文件> 设置保存拒绝修补相关信息的文件名称,预设的文件名称为.rej。
-R或--reverse 假设修补数据是由新旧文件交换位置而产生。
-s或--quiet或--silent 不显示指令执行过程,除非发生错误。
-t或--batch 自动略过错误,不询问任何问题。
-T或--set-time 此参数的效果和指定"-Z"参数类似,但以本地时间为主。
-u或--unified 把修补数据解译成一致化的差异。
-v或--version 显示版本信息。
-V<备份方式>或--version-control=<备份方式> 用"-b"参数备份目标文件後,备份文件的字尾会被加上一个备份字符串,这个字符串不仅可用"-z"参数变更,当使用"-V"参数指定不同备份方式时,也会产生不同字尾的备份字符串。
-Y<备份字首字符串>或--basename-prefix=--<备份字首字符串> 设置文件备份时,附加在文件基本名称开头的字首字符串。
-z<备份字尾字符串>或--suffix=<备份字尾字符串> 此参数的效果和指定"-B"参数类似,差别在于修补作业使用的路径与文件名若为src/linux/fs/super.c,加上"backup/"字符串後,文件super.c会备份于/src/linux/fs/backup目录里。
-Z或--set-utc 把修补过的文件更改,存取时间设为UTC。
--backup-if-mismatch 在修补数据不完全吻合,且没有刻意指定要备份文件时,才备份文件。
--binary 以二进制模式读写数据,而不通过标准输出设备。
--help 在线帮助。
--nobackup-if-mismatch 在修补数据不完全吻合,且没有刻意指定要备份文件时,不要备份文件。
--verbose 详细显示指令的执行过程。
-p 后面是要跟一个数字作为参数的, 表示忽略patch里面的多少层目录
patch里面记录的是文件之间的的差异, 例如:
Index: linux/Documentation/Configure.help
diff -u linux/Documentation/Configure.help:1.1.1.2 linux/Documentation/Configure.help:1.1.2.1.2.1
--- linux/Documentation/Configure.help:1.1.1.2 Mon Jan 10 21:35:32 2000
+++ linux/Documentation/Configure.help Wed Jan 12 21:56:04 2000
@@ -7133,6 +7133,71 @@
called minix.o. Note that the filesystem of your root partition (the
one containing the directory /) cannot be compiled as a module.
如果用-p 1, 就表示patch的是./Documentation/Configure.help
用-p 2, 就表示patch./Configure.help
关于二进制文件的说明:binary文件可以原始方式存入patch文件。diff可以生成(加-a选项),patch也可以识别。如果觉得这样的patch文
件太难看,解决方法之一是用uuencode处理该binary文件。
生成差异信息(或文件)一般用来制作补丁或比较多个文件的二异性
############################################################################
配合使用diff和patch升级源码
在此仅举一个简单的例子来说明如何用diff/patch工具维护源码升级。
假设program-1.0目录中为老版,现开发完成的新版位于program-2.0目录中,将两个目录置于同一父目录下,然后在该父目录上执行:
diff -Nur program-1.0 program-2.0 >program-2.0.patch
将生成一个program-2.0.patch的补丁文件,发布该补丁文件(当然可以先压缩成bzip2格式)。
假设拿到的是program-2.0.patch.bz2文件,则在program-1.0目录同级执行:
bzcat program-2.0.patch.bz2 | patch -p0
如此即完成了从1.0到2.0的升级。
如果希望恢复到原版本,可以使用-R(--reverse)参数,但仅对上下文格式的diff文件有效。还有一个备份参数也可以使用,但简单应用中,整个目录备份可能更方便一些。
两个文件的对比
文件1:/tmp/file1.txt
文件2:/tmp/file2.txt
用法:diff -ruN /tmp/file1.txt /tmp/file2.txt > /tmp/file.diff
则生成了一个 file2 相对 file1 的差异文件,这也是一个补丁
今後的补丁方法:cd /tmp; patch -p1 < file.diff
两个目录的对比
文件1:/tmp/path1
文件2:/tmp/path2
用法:diff -ruN /tmp/path1 /tmp/path2 > /tmp/path.diff