解密搜索引擎技术之中文分词与实现-scq2099yt-ChinaUnix博客

施昌权--淘宝卫霍shicq.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

scq2099yt

博客访问： 5852855
博文数量： 291
博客积分： 0
博客等级：民兵
技术积分： 7924
用户组：普通用户
注册时间： 2016-07-06 14:28

个人简介

阿里巴巴是个快乐的青年

文章分类

全部博文（291）

人工智能（16）

基础数学（1）

GPU优化（2）

TensorFlow（3）

机器写作（1）

深度学习（2）

机器学习（2）

机器翻译（1）

NLP算法（1）

NLP工具（1）

NLP科普（1）

AI科普（1）
IT咨询（1）

mac（1）
计算广告学（0）

计算广告学科普（0）

广告过滤（0）

反点击作弊（0）

广告推荐算法（0）

行为习惯广告（0）

广告排序算法（0）

广告匹配算法（0）

广告索引架构（0）
Web技术（10）
大数据（1）

自然语言处理（1）

深度学习（0）

机器学习（0）

社交网络（0）

数据挖掘（0）

个性化推荐（0）
团队建设（5）

产品相关（0）

运维相关（1）

测试相关（3）

敏捷开发（1）
广告技术（12）

移动广告（1）

人群定向技术（1）

广告技术科普（10）

RTB技术（0）
高性能服务器（15）

调试（2）

CPU（2）

调优（2）

监控（2）

内存（3）

并发（1）

锁（0）

IO（3）
网络通讯（4）

HTTP（1）

TCP（3）
集群（3）
移动互联网（6）

Cocos2D-HTML5（0）

Cocos2D-x（0）

Cocos2D（1）

iOS（1）

Android（4）
闲聊杂侃（11）
浏览器（3）

奇淫技巧（1）

Webkit（2）
IM即时通信（5）

OpenFire（0）

Jabber/XMPP（1）

Ejabberd（4）
云计算（0）

KVM/Xen（0）

OpenShift（0）

Cloud Found（0）

OpenStack（0）
分布式（0）

Two-Phase C（0）

MVCC（0）

Lease（0）

Quorum（0）

CAP（0）

Consistent （0）

Gossip（0）

Paxos（0）
Hadoop系列（16）

MapReduce（2）

Hive（0）

Zookeeper（0）

HDFS（3）

Hadoop（9）

HBase（2）
Amazon系列（1）

EC2（0）

AWS（0）

S3（0）

Dynamo（1）
Google系列（1）

GAE（0）

ProtoBuffer（1）

BigTable（0）

Chubby（0）

MapReduce（0）

GFS（0）
架构框架（0）

Node.js（0）

Avro（0）

Shrift（0）
算法与数据结构（27）

字符串（8）

排序（7）

其它（1）

查找（1）

链表（5）

树（5）
编程语言（77）

C++11（1）

JavaScript（1）

JSP（0）

HTML（1）

Java（9）

Shell（15）

Python（11）

Golang（7）

Erlang（6）

PHP（0）

Lua（7）

C++（17）

C（2）
搜索引擎（7）

seo（1）

Nutch（0）

垂直搜索引擎（1）

解密搜索引擎技术（5）

Solr（0）

Sphinx（0）

Lucene（0）
我的开源项目（0）
开源代码解析（69）

Log4cpp（0）

Tomcat（3）

Storm（1）

LevelDB（0）

Apache（1）

fastDFS（0）

HyperTable（0）

Keepalived（1）

LVS（1）

Linux（18）

Varnish（0）

Squid（0）

Heartbeat（0）

Libevent（1）

Nginx（17）

Haproxy（2）

HandleSocket（0）

neo4j（0）

MongoDB（2）

Memcached（3）

Redis（6）

MySQL（4）

RabbitMQ（9）

ZeroMQ（0）
未分配的博文（1）

文章存档

2018年（21）

2017年（4）

2016年（5）

2015年（17）

2014年（68）

2013年（174）

2012年（2）

我的朋友

相关博文

解密搜索引擎技术之中文分词与实现

分类：架构设计与优化

2014-08-28 12:29:48

        中文分词一直都是中文自然语言处理领域的基础研究，也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法，其中，最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) ，而MM算法有三种：一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本思想和实现。
一、基本思想
        （1）假设词典中最长的词语字数为w（一般设置为8个字符，即4个汉字）。
        （2）判断带分词语句长度是否大于w个字，如果大于w则跳到（3），如果小于w则跳到（6）。
        （3）取待分词语句的前w个字。
        （4）在词典中查找w，如果存在，则从语句中去掉w，从语句中w后的词开始重复上面过程。
        （5）如果不存在，就去掉这w个字的最后一个字。
        （6）检查是否是单字或者空，如果是，则退出。
        （7）如果不是，则继续判断词库中是否存在这个词，如此反复循环，直到输出一个词。
        （8）继续取短语的前w个字反复循环，这样就可以将一个语句分成词语的组合了。

二、简单实现

        #include
        #include
        #include
        using namespace std;
        set g_setWordDictionary;

        int construct()
        {
        g_setWordDictionary.insert("中国");
          g_setWordDictionary.insert("中国人");
          g_setWordDictionary.insert("纽约");
          g_setWordDictionary.insert("北京");
        }

        bool match(string &word)
        {
        set::iterator itor = g_setWordDictionary.find(word);
        if (itor == g_setWordDictionary.end())
        {
        return false;
        }

        return true;
        }

        void forward_maximum_matching(string content, set &keywords)
        {
            #define MAX_LEN 12 //词库中最长词语(utf-8一个汉字3个字节)
            #define MIN_LEN 3 //单字(原理同上)
        int len = content.length();
        int right_len = len;
        int start_pos = 0;
        bool ret = false;
        string kw_value = "";
        int kw_len = 0;
        int kw_pos = 0;
        //单字或空串
        while (right_len > MIN_LEN)
        {
        //语句大于词库中最长词语
        if (right_len >= MAX_LEN)
        {
        kw_value = content.substr(start_pos, MAX_LEN);
        }
        //语句小于词库中最长词语
        else
        {
        kw_value = content.substr(start_pos, right_len);
        }

        //词库匹配
        ret = match(kw_value);
          kw_len = kw_value.length();
        kw_pos = 0;
        while (!ret && kw_len > 2*MIN_LEN)
        {
        //去掉候选词右边一个汉字
        kw_len -= MIN_LEN;
        kw_value = kw_value.substr(kw_pos, kw_len);
        //继续匹配
        ret = match(kw_value);
        }

        //匹配到词
        if (ret)
        {
        keywords.insert(kw_value);
        //从语句中去掉匹配到的词
        start_pos += kw_len;
        right_len = len - start_pos;
        }
        //未匹配到词，下移一个字
        else
        {
        start_pos += MIN_LEN;
        right_len = len - start_pos;
        }
        }//while (right_len > MIN_LEN)
        }

        int main()
        {
        //构造词库
        construct();

        //切分词库
        string content = "我是中国人，我是来自中国北京的中国人，在纽约工作";
        set keywords;
        forward_maximum_matching(content, keywords);
        set::iterator itor;

        //输出分词
        for (itor=keywords.begin(); itor!=keywords.end(); ++itor)
        {
        printf("result: %s\n", (*itor).c_str());
        }

        return 0;
        }

阅读(12063) | 评论(8) | 转发(5) |

上一篇：WebKit之HTML网页和结构

下一篇：JVM内存管理

给主人留下些什么吧！~~

bobo20142014-09-03 17:13:32

中文分词我觉得我们公司这块做的算是行业内数一数二的，欢迎来http://bosonnlp.com/体验！如果你有更好的建议和批评随时欢迎提出！

回复 | 举报

zylthinking2014-09-03 10:33:10

文明上网，理性发言...

回复 | 举报

scq2099yt2014-08-28 12:30:10

文明上网，理性发言...

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6