python实现全角半角的相互转换-laoliulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4599530
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

相关博文

python实现全角半角的相互转换

分类： Python/Ruby

2014-08-08 14:04:48

文章来源：http://www.cnblogs.com/kaituorensheng/p/3554571.html

在自然语言处理过程中，全角、半角的的不一致会导致信息抽取不一致，因此需要统一。

转换说明

全角半角转换说明

有规律（不含空格）：

全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）

特例：
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）

除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 0x7e= 全角）,所以可以直接通过用+-法来处理非空格数据，对空格单独处理。

注：

1. 中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。

2. 引号在中英文、全半角情况下是不同的

参考代码

# -*- coding: cp936 -*- def strQ2B(ustring): """全角转半角""" rstring = "" for uchar in ustring:
        inside_code=ord(uchar) if inside_code == 12288: #全角空格直接转换  inside_code = 32 elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化 inside_code -= 65248 rstring += unichr(inside_code) return rstring def strB2Q(ustring): """半角转全角""" rstring = "" for uchar in ustring:
        inside_code=ord(uchar) if inside_code == 32: #半角空格直接转化  inside_code = 12288 elif inside_code >= 32 and inside_code <= 126: #半角字符（除空格）根据关系转化 inside_code += 65248 rstring += unichr(inside_code) return rstring



b = strQ2B("ｍｎ123abc博客园".decode('cp936')) print b

c = strB2Q("ｍｎ123abc博客园".decode('cp936')) print c

执行结果

库函数说明

chr()函数用一个范围在range（256）内的（就是0～255）整数作参数，返回一个对应的字符。
unichr()跟它一样，只不过返回的是Unicode字符。

ord()函数是chr()函数（对于8位的ASCII字符串）或unichr()函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的ASCII数值，或者Unicode数值。

案例

阅读(1005) | 评论(0) | 转发(0) |

上一篇：Extracting Text & Images from PDF Files

下一篇：Gevent

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6