GB2312下的全角标点和ascii码下的半角标-snowtty-ChinaUnix博客

冰雪塵埃snowtty.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

snowtty

博客访问： 5433666
博文数量： 1144
博客积分： 11974
博客等级：上将
技术积分： 12312
用户组：普通用户
注册时间： 2005-04-13 20:06

文章分类

全部博文（1144）

技术--Oracle&MyS（112）
编程--python编程（21）
编程--perl程序（183）
技术--防火墙类（9）
技术--samba类（7）
技术--apache类（18）
技术--netfilter（7）
工作--工作??（62）
生活--情感生活（116）
学习--英语学习（24）
学习--早先日志（46）
工作--周报总结（36）
学习--学习笔记（45）
技术--Rsync维护（11）
技术--OPENldap（1）
技术--squid维护（9）
技术--DNS 维护（17）
技术--FTP 维护（7）
技术--qmail维护（128）
技术--网络技术（26）
技术--linux 类（183）

openvpn（0）

nagios（10）
编程--awk&sed（11）
编程--shell编程（50）
未分配的博文（15）

文章存档

2017年（2）

2016年（14）

2015年（10）

2014年（28）

2013年（23）

2012年（29）

2011年（53）

2010年（86）

2009年（83）

2008年（43）

2007年（153）

2006年（575）

2005年（45）

我的朋友

相关博文

GB2312下的全角标点和ascii码下的半角标

分类： LINUX

2010-05-22 10:32:48

在GB2312下的全角标点和ascii码下的半角标是有联系的。不要什么对照表,全角字符是两
个字节,跟半角字符有一一对应的线性关系,
很简单.
第一字节: 160+区号 {全角的第一字节相等 }
第二字节: 128+半角ascii码

因此，将全角标点转换为半角标点可用以下语句完成
$str=~s/(\xA3(.))/chr(ord($2)-128)/eg;
（应用此语句会发成\xA3的匹配冲突。这也是gb2312下进行汉字匹配时最头疼的事情。）
因此，对应一些特定的符号，我们可以使用下面这条语句进行处理（依旧会有冲突如“危机”一词）
$str=~s/(０|１|２|３|４|５|６|７|８|９|
         Ａ|Ｂ|Ｃ|Ｄ|Ｅ|Ｆ|Ｇ|Ｈ|Ｉ|Ｊ|Ｋ|Ｌ|Ｍ|Ｎ|Ｏ|Ｐ|Ｑ|Ｒ|Ｓ|Ｔ|Ｕ|Ｖ|Ｗ|Ｘ|Ｙ|Ｚ|
         ａ|ｂ|ｃ|ｄ|ｅ|ｆ|ｇ|ｈ|ｉ|ｊ|ｋ|ｌ|ｍ|ｎ|ｏ|ｐ|ｑ|ｒ|ｓ|ｔ|ｕ|ｖ|ｗ|ｘ|ｙ|ｚ|
         |％（|）|＋|－|．|／|：|，|；|？|！|｛|｝|｜)/chr(ord(substr($1,1,1))-128)/x
eg;
这里多少还是用到了穷举的思想，但是起码比一行一行穷举方便多了。

还有一种方法是借助了哈希表的思想
将要替换的字符存入哈希表，然后比照哈希表进行替换。如下:
my %h = ("０"=>"\0]","１"=>"1","２"=>"2","３"=>"3","４"=>"4","５"=>"5","６"=>"6","７"=>"7","８"=>"8",
"９"=>"9","％"=>"%","（"=>"(","）"=>")","＋"=>"+","－"=>"-","．"=>".","／"=>"/","："=>":",
"，"=>",","；"=>";","？"=>"?","！"=>"!","｛"=>"{","｝"=>"}","｜"=>"|","。"=>".");

$str="杜斯特－布拉齐说，法国外交部已成立危机小组以处理善后事宜。";
my $newstr = "";
$str=~s/([\x80-\xff]{2})/$h{ $1 } ? $h{ $1 } : $1/eg;
$str=~s/\[0\]/0/g; #简单的替换0会在$h{$1} ? $h{$1}:$1时将$h{$1}(=0)判断为错
print $str;
相信这么做的效率应该比方法一要低不少。而且还需要额外的空间来存储哈希表。但是这样做不会产生ascii下的匹配错误，是安全的。

欢迎大家讨论

阅读(5116) | 评论(0) | 转发(0) |

上一篇：Perl进程间通讯

下一篇：【Memcache协议分析】

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6