分词常用算法和资源[原创]-sulpha-ChinaUnix博客

随便记点

首页　| 　博文目录　| 　关于我

sulpha

博客访问： 50784
博文数量： 19
博客积分： 1400
博客等级：上尉
技术积分： 215
用户组：普通用户
注册时间： 2008-12-08 11:40

文章分类

全部博文（19）

JavaEE（1）

Struts2（1）
javascript（5）
企业管理（1）
mysql（2）
互联网（1）
cli（0）
cpp（0）
python（1）
segment（1）
未分配的博文（7）

文章存档

2011年（1）

2009年（18）

我的朋友

最近访客

推荐博文

分词常用算法和资源[原创]

分类：

2009-01-08 10:30:56

分词常用算法和资源：

一、基于规则的
1. 正向最大匹配
2. 反向最大匹配
3. 正反向结合

二、词典结构
Trie树和双数组Trie树

三、基于统计的
1. HMM（隐马尔可夫模型）
2. ME（最大熵）
3. CRF（条件随机场）

四、资源

五、我个人认为比较重要的论文或书籍：
＝＝＝《汉语自动分词词典机制的实验研究》
阐明了分词中Trie树词典数据结构

＝＝＝《对自动分词的反思》(黄昌宁、高剑峰、李沐)

＝＝＝《中文分词十年回顾》(黄昌宁、赵海)
一篇重要的回顾论文

＝＝＝《高频最大交集型歧义字段问题研究》(李斌、陈小荷、方芳)

＝＝＝《利用汉字二元语法关系解决汉语自动分词中的交集型歧义》(孙茂松、黄昌宁、邹嘉彦)

＝＝＝《交集型歧义字段切分方法研究》（闫引堂、周晓强）

＝＝＝《统计自然语言处理基础》（Foundations of Statistical NLP）
每次读都有收获的书，NLP的入门书籍

＝＝＝《A Maximum Entropy Approach to Chinese Word Segmentation》（Low&&Ng）

===《Combining Classifiers for Chinese Word Segmentation》（Nianwen Xue）

＝＝＝《Chinese Word Segmentation as Character Tagging》（Nianwen Xue）

＝＝＝《Chinese Word Segmentation as LMR Tagging》（Nianwen Xue）

＝＝＝《A tutorial on hidden markov models and selected applications in speech recognition》
HMM的经典论文

＝＝＝《A maximum entropy approach to natural language processing》
ME的经典论文

阅读(806) | 评论(0) | 转发(0) |

上一篇：没有了

下一篇：中国互联网大预言（六）社区本质与营利[转载]

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6