解密搜索引擎技术之中文分词与实现-Larpenteur-ChinaUnix博客

尘世中一个迷途小书童riverhwp.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

Larpenteur

博客访问： 6422745
博文数量： 2759
博客积分： 1021
博客等级：中士
技术积分： 4091
用户组：普通用户
注册时间： 2012-03-11 14:14

文章分类

全部博文（2759）

Todo（1）
Advice（151）
Linux-未分类（223）
Ubuntu（47）
Database（145）
算法&DS（77）
Android（47）
Web（214）
Geek（237）
CPPC（296）
Java（113）
Python（99）
Matlab（19）
Git（19）
SVN（11）
Gnuplot（5）
面试（0）
机器-挖掘-AI（6）
开源项目（1）
Happy Drawe（9）
Programming（144）

Tools（23）

Shell（66）

Makefile（11）

GDB（26）

vim（18）
System（628）

Author（110）

Common（4）

Memory（66）

File system（82）

Driver（19）

IO（66）

Storage（45）

General（38）

Architecture（19）

Command（64）

Kernel（115）
Virtualization（39）
Cloud（33）
Hadoop（71）
Big Data（24）
未分配的博文（100）

文章存档

2019年（1）

2017年（84）

2016年（196）

2015年（204）

2014年（636）

2013年（1176）

2012年（463）

我的朋友

相关博文

解密搜索引擎技术之中文分词与实现

分类：架构设计与优化

2014-09-11 12:27:24

原文地址：解密搜索引擎技术之中文分词与实现作者：scq2099yt

        中文分词一直都是中文自然语言处理领域的基础研究，也是中文搜索引擎的核心模块之一。目前而言的分词系统绝大多数都是基于中文词典的匹配算法，其中，最为常见的是最大匹配算法 (Maximum Matching，以下简称MM算法) ，而MM算法有三种：一种正向最大匹配、一种逆向最大匹配和双向匹配。本文以正向最大匹配算法为例介绍其基本思想和实现。
一、基本思想
        （1）假设词典中最长的词语字数为w（一般设置为8个字符，即4个汉字）。
        （2）判断带分词语句长度是否大于w个字，如果大于w则跳到（3），如果小于w则跳到（6）。
        （3）取待分词语句的前w个字。
        （4）在词典中查找w，如果存在，则从语句中去掉w，从语句中w后的词开始重复上面过程。
        （5）如果不存在，就去掉这w个字的最后一个字。
        （6）检查是否是单字或者空，如果是，则退出。
        （7）如果不是，则继续判断词库中是否存在这个词，如此反复循环，直到输出一个词。
        （8）继续取短语的前w个字反复循环，这样就可以将一个语句分成词语的组合了。

二、简单实现

        #include
        #include
        #include
        using namespace std;
        set g_setWordDictionary;

        int construct()
        {
        g_setWordDictionary.insert("中国");
          g_setWordDictionary.insert("中国人");
          g_setWordDictionary.insert("纽约");
          g_setWordDictionary.insert("北京");
        }

        bool match(string &word)
        {
        set::iterator itor = g_setWordDictionary.find(word);
        if (itor == g_setWordDictionary.end())
        {
        return false;
        }

        return true;
        }

        void forward_maximum_matching(string content, set &keywords)
        {
            #define MAX_LEN 12 //词库中最长词语(utf-8一个汉字3个字节)
            #define MIN_LEN 3 //单字(原理同上)
        int len = content.length();
        int right_len = len;
        int start_pos = 0;
        bool ret = false;
        string kw_value = "";
        int kw_len = 0;
        int kw_pos = 0;
        //单字或空串
        while (right_len > MIN_LEN)
        {
        //语句大于词库中最长词语
        if (right_len >= MAX_LEN)
        {
        kw_value = content.substr(start_pos, MAX_LEN);
        }
        //语句小于词库中最长词语
        else
        {
        kw_value = content.substr(start_pos, right_len);
        }

        //词库匹配
        ret = match(kw_value);
          kw_len = kw_value.length();
        kw_pos = 0;
        while (!ret && kw_len > 2*MIN_LEN)
        {
        //去掉候选词右边一个汉字
        kw_len -= MIN_LEN;
        kw_value = kw_value.substr(kw_pos, kw_len);
        //继续匹配
        ret = match(kw_value);
        }

        //匹配到词
        if (ret)
        {
        keywords.insert(kw_value);
        //从语句中去掉匹配到的词
        start_pos += kw_len;
        right_len = len - start_pos;
        }
        //未匹配到词，下移一个字
        else
        {
        start_pos += MIN_LEN;
        right_len = len - start_pos;
        }
        }//while (right_len > MIN_LEN)
        }

        int main()
        {
        //构造词库
        construct();

        //切分词库
        string content = "我是中国人，我是来自中国北京的中国人，在纽约工作";
        set keywords;
        forward_maximum_matching(content, keywords);
        set::iterator itor;

        //输出分词
        for (itor=keywords.begin(); itor!=keywords.end(); ++itor)
        {
        printf("result: %s\n", (*itor).c_str());
        }

        return 0;
        }

阅读(813) | 评论(0) | 转发(0) |

上一篇：Docker之配置Centos_ssh

下一篇：Linux安装MariaDB 5.5大全

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6