分词常用算法和资源:
一、基于规则的
1. 正向最大匹配
2. 反向最大匹配
3. 正反向结合
二、词典结构
Trie树和双数组Trie树
三、基于统计的
1. HMM(隐马尔可夫模型)
2. ME(最大熵)
3. CRF(条件随机场)
四、资源
五、我个人认为比较重要的论文或书籍:
===《汉语自动分词词典机制的实验研究》
阐明了分词中Trie树词典数据结构
===《对自动分词的反思》(黄昌宁、高剑峰、李沐)
===《中文分词十年回顾》(黄昌宁、赵海)
一篇重要的回顾论文
===《高频最大交集型歧义字段问题研究》(李斌、陈小荷、方芳)
===《利用汉字二元语法关系解决汉语自动分词中的交集型歧义》(孙茂松、黄昌宁、邹嘉彦)
===《交集型歧义字段切分方法研究》(闫引堂、周晓强)
=== 《统计自然语言处理基础》(Foundations of Statistical NLP)
每次读都有收获的书,NLP的入门书籍
===《A Maximum Entropy Approach to Chinese Word Segmentation》(Low&&Ng)
===《Combining Classifiers for Chinese Word Segmentation》(Nianwen Xue)
===《Chinese Word Segmentation as Character Tagging》(Nianwen Xue)
===《Chinese Word Segmentation as LMR Tagging》(Nianwen Xue)
===《A tutorial on hidden markov models and selected applications in speech recognition》
HMM的经典论文
===《A maximum entropy approach to natural language processing》
ME的经典论文
阅读(806) | 评论(0) | 转发(0) |