#--utf8--
import sys
import re
reload(sys)
sys.setdefaultencoding('utf-8')
source='S2f程序员女权2d3天在厅2d3在天厅2d3'
temp=source.decode('utf8')
XX=u'([\u4e00-\u9fa5])'
pattern=re.compile(XX)
results=pattern.findall(temp)
for result in results:
print result
input()
这里有几个注意点:
1:程序本身要存储成UTF8格式,具体包括三部分
A:文件本身编码是UTF8,这样做的目的是,你在文件中写了中文,再次打开时,不管是用什么样的程序打开,中文可以正确识别
B:程序本身设置为UTF8,也就是开始的#--utf8--和后面的sys.setdefaultencoding('utf-8'), 这样做是为了让程序运行在UTF8格式下,将字符编码设置为utf8格式(这一点有点绕,表达不好,见谅)
2:要对中文进行解码,因为你看到的字符串,注意:是字符,字符是什么?字符是编码后的表示形式,所以要对其进行解码,解码成UTF8形式,换句话说,所谓的中文匹配其本质上匹配的是Unicode码,所以要经过一个这样过程:字符-->Unicode码。
阅读(1862) | 评论(0) | 转发(0) |