Chinaunix首页 | 论坛 | 博客
  • 博客访问: 50784
  • 博文数量: 19
  • 博客积分: 1400
  • 博客等级: 上尉
  • 技术积分: 215
  • 用 户 组: 普通用户
  • 注册时间: 2008-12-08 11:40
文章分类

全部博文(19)

文章存档

2011年(1)

2009年(18)

我的朋友
最近访客

分类:

2009-01-08 10:30:56

分词常用算法和资源:

一、基于规则的
1. 正向最大匹配
2. 反向最大匹配
3. 正反向结合

二、词典结构
Trie树和双数组Trie树

三、基于统计的
1. HMM(隐马尔可夫模型)
2. ME(最大熵)
3. CRF(条件随机场)

四、资源


五、我个人认为比较重要的论文或书籍:
===《汉语自动分词词典机制的实验研究》
阐明了分词中Trie树词典数据结构

===《对自动分词的反思》(黄昌宁、高剑峰、李沐)

===《中文分词十年回顾》(黄昌宁、赵海)
一篇重要的回顾论文

===《高频最大交集型歧义字段问题研究》(李斌、陈小荷、方芳)

===《利用汉字二元语法关系解决汉语自动分词中的交集型歧义》(孙茂松、黄昌宁、邹嘉彦)

===《交集型歧义字段切分方法研究》(闫引堂、周晓强)

=== 《统计自然语言处理基础》(Foundations of Statistical NLP)
每次读都有收获的书,NLP的入门书籍

===《A Maximum Entropy Approach to Chinese Word Segmentation》(Low&&Ng)

===《Combining Classifiers for Chinese Word Segmentation》(Nianwen Xue)

===《Chinese Word Segmentation as Character Tagging》(Nianwen Xue)

===《Chinese Word Segmentation as LMR Tagging》(Nianwen Xue)

===《A tutorial on hidden markov models and selected applications in speech recognition》
HMM的经典论文

===《A maximum entropy approach to natural language processing》
ME的经典论文

阅读(806) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~