Chinaunix首页 | 论坛 | 博客
  • 博客访问: 212706
  • 博文数量: 67
  • 博客积分: 1237
  • 博客等级: 中尉
  • 技术积分: 630
  • 用 户 组: 普通用户
  • 注册时间: 2011-07-01 23:24
文章存档

2012年(8)

2011年(59)

分类: LINUX

2011-07-29 23:35:43

一、语系环境对正则表达式的影响
文档其实记录的仅有0和1,我们看到的字符文字与数字都是透过编码表转换来的。由于不同语系的编码数据并不相同,所以就会造成数据抓取结果的差异。我们语系一般使用C,亦即LANG=C,兼容POSIX标准。
 
二、正则表达式特殊符号
[:alnum:]  代表英文大小写字符以及数字,亦即0-9,a-z,A-Z
[:alpha:]  代表任何应为大小写字符,亦即A-Z,a-z
[:blank:]  代表空格键与tab键
[:cntrl:]  代表键盘上的控制键,包括Ctrl,Del,Delete等等
[:digit:]  代表数字,亦即0-9
[:graph:]  代表除空格键语Tab键之外的其他所有按键
[:lower:]  代表小写字符,亦即a-z
[:print:]  代表任何可以被打印出来的字符
[:punct:]  代表标点字符,亦即; " ' ? ! : # $等
[:upper:]  代表大写字符,亦即A-Z
[:space:]  代表任何会产生空白的字符,包括空格键、Tab键、Ctrl键
[:xdigit:] 代表十六进制的数字类型,故包括0-9,a-f与A-F
 
阅读(1478) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~