Chinaunix首页 | 论坛 | 博客
  • 博客访问: 408754
  • 博文数量: 57
  • 博客积分: 193
  • 博客等级: 入伍新兵
  • 技术积分: 1192
  • 用 户 组: 普通用户
  • 注册时间: 2012-12-13 14:37
个人简介

当以艺术眼光看程序,寻找程序后面的原理,做到化而不忘

文章分类

全部博文(57)

文章存档

2017年(5)

2015年(7)

2014年(27)

2013年(18)

我的朋友

分类: Python/Ruby

2014-08-26 22:22:28

#--utf8--
import sys
import re

reload(sys)
sys.setdefaultencoding('utf-8')

source='S2f程序员女权2d3天在厅2d3在天厅2d3'
temp=source.decode('utf8')
XX=u'([\u4e00-\u9fa5])'
pattern=re.compile(XX)
results=pattern.findall(temp)
for result in results:
    print  result
input()
这里有几个注意点:
1:程序本身要存储成UTF8格式,具体包括三部分
A:文件本身编码是UTF8,这样做的目的是,你在文件中写了中文,再次打开时,不管是用什么样的程序打开,中文可以正确识别
B:程序本身设置为UTF8,也就是开始的#--utf8--和后面的sys.setdefaultencoding('utf-8'), 这样做是为了让程序运行在UTF8格式下,将字符编码设置为utf8格式(这一点有点绕,表达不好,见谅)

2:要对中文进行解码,因为你看到的字符串,注意:是字符,字符是什么?字符是编码后的表示形式,所以要对其进行解码,解码成UTF8形式,换句话说,所谓的中文匹配其本质上匹配的是Unicode码,所以要经过一个这样过程:字符-->Unicode码。

阅读(1869) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~