《鳥哥的 Linux 私房菜》正则表达式学习笔记-anmile-ChinaUnix博客

熙熙攘攘anmile.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

anmile

博客访问： 189518
博文数量： 55
博客积分： 1471
博客等级：上尉
技术积分： 420
用户组：普通用户
注册时间： 2010-12-08 14:00

文章分类

全部博文（55）

shell脚本（2）
nginx（2）
mysql（3）
linux_kickstart（1）
linux_network（5）
linux_disk（9）

parted（3）

raid（5）
linux_awk（3）
linux_shell（2）
linux_rsyslog（5）
window（4）
linux（19）
未分配的博文（0）

文章存档

2012年（5）

2011年（50）

我的朋友

相关博文

《鳥哥的 Linux 私房菜》正则表达式学习笔记

分类： LINUX

2011-02-17 10:13:23

特殊符號	代表意義
[:alnum:]	代表英文大小寫字元及數字，亦即 0-9, A-Z, a-z
[:alpha:]	代表任何英文大小寫字元，亦即 A-Z, a-z
[:blank:]	代表空白鍵與 [Tab] 按鍵兩者
[:cntrl:]	代表鍵盤上面的控制按鍵，亦即包括 CR, LF, Tab, Del.. 等等
[:digit:]	代表數字而已，亦即 0-9
[:graph:]	除了空白字元 (空白鍵與 [Tab] 按鍵) 外的其他所有按鍵
[:lower:]	代表小寫字元，亦即 a-z
[:print:]	代表任何可以被列印出來的字元
[:punct:]	代表標點符號 (punctuation symbol)，亦即：" ' ? ! ; : # $...
[:upper:]	代表大寫字元，亦即 A-Z
[:space:]	任何會產生空白的字元，包括空白鍵, [Tab], CR 等等
[:xdigit:]	代表 16 進位的數字類型，因此包括： 0-9, A-F, a-f 的數字與字元

尤其上表中的[:alnum:], [:alpha:], [:upper:], [:lower:], [:digit:] 這幾個一定要知道代表什麼意思，因為他要比 a-z 或 A-Z 的用途要確定的很！

RE 字符	意義與範例
^word	意義：待搜尋的字串(word)在行首！範例：搜尋行首為 # 開始的那一行，並列出行號 grep -n '^#' regular_express.txt
word$	意義：待搜尋的字串(word)在行尾！範例：將行尾為 ! 的那一行列印出來，並列出行號 grep -n '!$' regular_express.txt
.	意義：代表『一定有一個任意字元』的字符！範例：搜尋的字串可以是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『一定』僅有一個字元，而空白字元也是字元！ grep -n 'e.e' regular_express.txt
\	意義：跳脫字符，將特殊符號的特殊意義去除！範例：搜尋含有單引號 ' 的那一行！ grep -n \' regular_express.txt
*	意義：重複零個到無窮多個的前一個 RE 字符範例：找出含有 (es) (ess) (esss) 等等的字串，注意，因為 * 可以是 0 個，所以 es 也是符合帶搜尋字串。另外，因為 * 為重複『前一個 RE 字符』的符號，因此，在 * 之前必須要緊接著一個 RE 字符喔！例如任意字元則為『.』！ grep -n 'ess' regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！範例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！ grep -n 'g[ld]' regular_express.txt
[n1-n2]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元範圍！範例：搜尋含有任意數字的那一行！需特別留意，在字元集合 [] 中的減號 - 是有特殊意義的，他代表兩個字元之間的所有連續字元！但這個連續與否與 ASCII 編碼有關，因此，你的編碼需要設定正確(在 bash 當中，需要確定 LANG 與 LANGUAGE 的變數是否正確！) 例如所有大寫字元則為 [A-Z] grep -n '[A-Z]' regular_express.txt
[^list]	意義：字元集合的 RE 字符，裡面列出不要的字串或範圍！範例：搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在 [] 內時，代表的意義是『反向選擇』的意思。例如，我不要大寫字元，則為 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該檔案內的所有行都被列出，為什麼？因為這個 [^A-Z] 是『非大寫字元』的意思，因為每一行均有非大寫字元，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字 grep -n 'oo[^t]' regular_express.txt
\{n,m\}	意義：連續 n 到 m 個的『前一個 RE 字符』意義：若為 \{n\} 則是連續 n 個的前一個 RE 字符，意義：若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符！範例：在 g 與 g 之間有 2 個到 3 個的 o 存在的字串，亦即 (goog)(gooog) grep -n 'go\{2,3\}g' regular_express.txt

再次強調：『正規表示法的特殊字元』與一般在指令列輸入指令的『萬用字元』並不相同，例如，在萬用字元當中的 * 代表的是『 0 ~ 無限多個字元』的意思，但是在正規表示法當中， * 則是『重複 0 到無窮多個的前一個 RE 字符』的意思～使用的意義並不相同，不要搞混了！

舉例來說，不支援正規表示法的 ls 這個工具中，若我們使用『ls -l * 』代表的是任意檔名的檔案，而『ls -l a* 』代表的是以 a 為開頭的任何檔名的檔案，但在正規表示法中，我們要找到含有以 a 為開頭的檔案，則必須要這樣：(需搭配支援正規表示法的工具)

ls | grep -n '^a.*'

延伸正規表示法

事實上，一般讀者只要瞭解基礎型的正規表示法大概就已經相當足夠了，不過，某些時刻為了要簡化整個指令操作，瞭解一下使用範圍更廣的延伸型正規表示法的表示式會更方便呢！舉個簡單的例子好了，我們要去除空白行與行首為 # 的行列，使用的是

grep -v '^$' regular_express.txt | grep -v '^#'

需要使用到管線命令來搜尋兩次！那麼如果使用延伸型的正規表示法，我們可以簡化為：

egrep -v '^$|^#' regular_express.txt

延伸型正規表示法可以透過群組功能『 | 』來進行一次搜尋！那個在單引號內的管線意義為『或 or』啦！是否變的更簡單呢？此外，grep 預設僅支援基礎正規表示法，如果要使用延伸型正規表示法，你可以使用 grep -E ，不過更建議直接使用 egrep ！直接區分指令比較好記憶！其實 egrep 與 grep -E 是類似命令別名的關係啦！

RE 字符	意義與範例
+	意義：重複『一個或一個以上』的前一個 RE 字符範例：搜尋 (god) (good) (goood)... 等等的字串。那個 o+ 代表『一個以上的 o 』所以，底下的執行成果會將第 1, 9, 13 行列出來。 egrep -n 'go+d' regular_express.txt
?	意義：『零個或一個』的前一個 RE 字符範例：搜尋 (gd) (god) 這兩個字串。那個 o? 代表『空的或 1 個 o 』所以，上面的執行成果會將第 13, 14 行列出來。有沒有發現到，這兩個案例( 'go+d' 與 'go?d' )的結果集合與 'go*d' 相同？想想看，這是為什麼喔！ ^_^ egrep -n 'go?d' regular_express.txt
\|	意義：用或( or )的方式找出數個字串範例：搜尋 gd 或 good 這兩個字串，注意，是『或』！所以，第 1,9,14 這三行都可以被列印出來喔！那如果還想要找出 dog 呢？ egrep -n 'gd\|good' regular_express.txt egrep -n 'gd\|good\|dog' regular_express.txt
()	意義：找出『群組』字串範例：搜尋 (glad) 或 (good) 這兩個字串，因為 g 與 d 是重複的，所以，我就可以將 la 與 oo 列於 ( ) 當中，並以 \| 來分隔開來，就可以啦！ egrep -n 'g(la\|oo)d' regular_express.txt
()+	意義：多個重複群組的判別範例：將『AxyzxyzxyzxyzC』用 echo 叫出，然後再使用如下的方法搜尋一下！ echo 'AxyzxyzxyzxyzC' \| egrep 'A(xyz)+C' 上面的例子意思是說，我要找開頭是 A 結尾是 C ，中間有一個以上的 "xyz" 字串的意思～

以上這些就是延伸型的正規表示法的特殊字元。另外，要特別強調的是，那個 ! 在正規表示法當中並不是特殊字元，所以，如果你想要查出來檔案中含有 ! 與 > 的字行時，可以這樣：

grep -n '[!>]' regular_express.txt

這樣可以瞭解了嗎？常常看到有陷阱的題目寫：『反向選擇這樣對否？ '[!a-z]'？』，呵呵！是錯的呦～要 '[^a-z] 才是對的！

阅读(1111) | 评论(0) | 转发(0) |

上一篇：mysqldump：数据库备份程序

下一篇：计算机颜色代码

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6

RE 字符	意義與範例
^word	意義：待搜尋的字串(word)在行首！範例：搜尋行首為 # 開始的那一行，並列出行號 grep -n '^#' regular_express.txt
word$	意義：待搜尋的字串(word)在行尾！範例：將行尾為 ! 的那一行列印出來，並列出行號 grep -n '!$' regular_express.txt
.	意義：代表『一定有一個任意字元』的字符！範例：搜尋的字串可以是 (eve) (eae) (eee) (e e)，但不能僅有 (ee) ！亦即 e 與 e 中間『一定』僅有一個字元，而空白字元也是字元！ grep -n 'e.e' regular_express.txt
\	意義：跳脫字符，將特殊符號的特殊意義去除！範例：搜尋含有單引號 ' 的那一行！ grep -n \' regular_express.txt
*	意義：重複零個到無窮多個的前一個 RE 字符範例：找出含有 (es) (ess) (esss) 等等的字串，注意，因為 * 可以是 0 個，所以 es 也是符合帶搜尋字串。另外，因為 * 為重複『前一個 RE 字符』的符號，因此，在 * 之前必須要緊接著一個 RE 字符喔！例如任意字元則為『.』！ grep -n 'ess' regular_express.txt
[list]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元！範例：搜尋含有 (gl) 或 (gd) 的那一行，需要特別留意的是，在 [] 當中『謹代表一個待搜尋的字元』，例如『 a[afl]y 』代表搜尋的字串可以是 aay, afy, aly 即 [afl] 代表 a 或 f 或 l 的意思！ grep -n 'g[ld]' regular_express.txt
[n1-n2]	意義：字元集合的 RE 字符，裡面列出想要擷取的字元範圍！範例：搜尋含有任意數字的那一行！需特別留意，在字元集合 [] 中的減號 - 是有特殊意義的，他代表兩個字元之間的所有連續字元！但這個連續與否與 ASCII 編碼有關，因此，你的編碼需要設定正確(在 bash 當中，需要確定 LANG 與 LANGUAGE 的變數是否正確！) 例如所有大寫字元則為 [A-Z] grep -n '[A-Z]' regular_express.txt
[^list]	意義：字元集合的 RE 字符，裡面列出不要的字串或範圍！範例：搜尋的字串可以是 (oog) (ood) 但不能是 (oot) ，那個 ^ 在 [] 內時，代表的意義是『反向選擇』的意思。例如，我不要大寫字元，則為 [^A-Z]。但是，需要特別注意的是，如果以 grep -n [^A-Z] regular_express.txt 來搜尋，卻發現該檔案內的所有行都被列出，為什麼？因為這個 [^A-Z] 是『非大寫字元』的意思，因為每一行均有非大寫字元，例如第一行的 "Open Source" 就有 p,e,n,o.... 等等的小寫字 grep -n 'oo[^t]' regular_express.txt
\{n,m\}	意義：連續 n 到 m 個的『前一個 RE 字符』意義：若為 \{n\} 則是連續 n 個的前一個 RE 字符，意義：若是 \{n,\} 則是連續 n 個以上的前一個 RE 字符！範例：在 g 與 g 之間有 2 個到 3 個的 o 存在的字串，亦即 (goog)(gooog) grep -n 'go\{2,3\}g' regular_express.txt

RE 字符	意義與範例
+	意義：重複『一個或一個以上』的前一個 RE 字符範例：搜尋 (god) (good) (goood)... 等等的字串。那個 o+ 代表『一個以上的 o 』所以，底下的執行成果會將第 1, 9, 13 行列出來。 egrep -n 'go+d' regular_express.txt
?	意義：『零個或一個』的前一個 RE 字符範例：搜尋 (gd) (god) 這兩個字串。那個 o? 代表『空的或 1 個 o 』所以，上面的執行成果會將第 13, 14 行列出來。有沒有發現到，這兩個案例( 'go+d' 與 'go?d' )的結果集合與 'go*d' 相同？想想看，這是為什麼喔！ ^_^ egrep -n 'go?d' regular_express.txt
\|	意義：用或( or )的方式找出數個字串範例：搜尋 gd 或 good 這兩個字串，注意，是『或』！所以，第 1,9,14 這三行都可以被列印出來喔！那如果還想要找出 dog 呢？ egrep -n 'gd\|good' regular_express.txt egrep -n 'gd\|good\|dog' regular_express.txt
()	意義：找出『群組』字串範例：搜尋 (glad) 或 (good) 這兩個字串，因為 g 與 d 是重複的，所以，我就可以將 la 與 oo 列於 ( ) 當中，並以 \| 來分隔開來，就可以啦！ egrep -n 'g(la\|oo)d' regular_express.txt
()+	意義：多個重複群組的判別範例：將『AxyzxyzxyzxyzC』用 echo 叫出，然後再使用如下的方法搜尋一下！ echo 'AxyzxyzxyzxyzC' \| egrep 'A(xyz)+C' 上面的例子意思是說，我要找開頭是 A 結尾是 C ，中間有一個以上的 "xyz" 字串的意思～