一、语系环境对正则表达式的影响
文档其实记录的仅有0和1,我们看到的字符文字与数字都是透过编码表转换来的。由于不同语系的编码数据并不相同,所以就会造成数据抓取结果的差异。我们语系一般使用C,亦即LANG=C,兼容POSIX标准。
二、正则表达式特殊符号
[:alnum:] 代表英文大小写字符以及数字,亦即0-9,a-z,A-Z
[:alpha:] 代表任何应为大小写字符,亦即A-Z,a-z
[:blank:] 代表空格键与tab键
[:cntrl:] 代表键盘上的控制键,包括Ctrl,Del,Delete等等
[:digit:] 代表数字,亦即0-9
[:graph:] 代表除空格键语Tab键之外的其他所有按键
[:lower:] 代表小写字符,亦即a-z
[:print:] 代表任何可以被打印出来的字符
[:punct:] 代表标点字符,亦即; " ' ? ! : # $等
[:upper:] 代表大写字符,亦即A-Z
[:space:] 代表任何会产生空白的字符,包括空格键、Tab键、Ctrl键
[:xdigit:] 代表十六进制的数字类型,故包括0-9,a-f与A-F
阅读(1478) | 评论(0) | 转发(0) |