正则表达式匹配中文-CUTianrui007-ChinaUnix博客

诗&amp;艺&amp;技tianrui007.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

CUTianrui007

博客访问： 414079
博文数量： 57
博客积分： 193
博客等级：入伍新兵
技术积分： 1192
用户组：普通用户
注册时间： 2012-12-13 14:37

个人简介

当以艺术眼光看程序，寻找程序后面的原理，做到化而不忘

文章分类

全部博文（57）

Excel（1）
Linux（4）
词源（1）
Python（7）
Embedded（4）
ReadingAndThinki（22）
Reversing（1）
Reversing（1）
MFC（2）
Architecture（1）
CANRelated（1）
C/C++（6）
Perl（5）
未分配的博文（1）

文章存档

2017年（5）

2015年（7）

2014年（27）

2013年（18）

我的朋友

相关博文

正则表达式匹配中文

分类： Python/Ruby

2014-08-26 22:22:28

#--utf8--
import sys
import re

reload(sys)
sys.setdefaultencoding('utf-8')

source='S2f程序员女权2d3天在厅2d3在天厅2d3'
temp=source.decode('utf8')
XX=u'([\u4e00-\u9fa5])'
pattern=re.compile(XX)
results=pattern.findall(temp)
for result in results:
print result
input()
这里有几个注意点：
1：程序本身要存储成UTF8格式，具体包括三部分
A:文件本身编码是UTF8，这样做的目的是，你在文件中写了中文，再次打开时，不管是用什么样的程序打开，中文可以正确识别
B：程序本身设置为UTF8，也就是开始的#--utf8--和后面的sys.setdefaultencoding('utf-8')，这样做是为了让程序运行在UTF8格式下，将字符编码设置为utf8格式（这一点有点绕，表达不好，见谅）

2：要对中文进行解码，因为你看到的字符串，注意：是字符，字符是什么？字符是编码后的表示形式，所以要对其进行解码，解码成UTF8形式，换句话说，所谓的中文匹配其本质上匹配的是Unicode码，所以要经过一个这样过程：字符-->Unicode码。

阅读(1890) | 评论(0) | 转发(0) |

上一篇：reduce方法

下一篇：《软件随想录》笔记---第十章编程建议

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6