Hukaa 2.0 养成记（1）全文索引之切词-formalin14-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

路斯坦普achilles.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 12947
博文数量： 6
博客积分： 295
博客等级：二等列兵
技术积分： 70
用户组：普通用户
注册时间： 2008-05-12 00:03

文章分类

全部博文（6）

perl（1）
未分配的博文（5）

文章存档

2012年（2）

2009年（1）

2008年（3）

我的朋友

最近访客

推荐博文

相关博文

Hukaa 2.0 养成记（1）全文索引之切词

分类： Python/Ruby

2012-09-05 21:30:25

中文二元切词

保留中文单字

英文单词

去除其他符号

忽略字母数小于三个的英文单词

英文统一转成小写

调用时传入的字符串应该是 utf8 flag 没有打开（未 decode ）的状态。

调用示例：

点击(此处)折叠或打开

use Hukaa::Search;
my @results = cut_words("中华人民共和国 hel-HHHlo呵呵[]哈哈wor\\ld下What不为例啊");
print join("\n", @results), "\n";

结果：

源代码：

点击(此处)折叠或打开

阅读(344) | 评论(0) | 转发(0) |

0

上一篇：看来除了那个泄露代码的csdn，这是唯一一个代码高亮比较好的博客了。

下一篇：没有了

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们