Chinaunix首页 | 论坛 | 博客
  • 博客访问: 228297
  • 博文数量: 46
  • 博客积分: 1400
  • 博客等级: 上尉
  • 技术积分: 620
  • 用 户 组: 普通用户
  • 注册时间: 2009-01-12 18:04
文章分类

全部博文(46)

文章存档

2010年(7)

2009年(39)

我的朋友

分类:

2009-07-17 18:13:36

邮件分词算法设计与实现(一)

邮件分词步骤

1. 邮件体文件预处理
 1.1 产生邮件主题(解码后)
 1.2 产生邮件内容(解码后)
   txt  类邮件
   html 类邮件 (去除html标签)
   有效正文提取。

2. 邮件主题/正文分词

 2.1 中英文邮件分类
 
 2.2 英文邮件分词
    2.2.1 根据特殊分隔符分词
    2.2.2 英文分词长度>1
    2.2.3 产生英文分词列表
 
 2.3 中文邮件分词
   2.3.1 分离邮件中的英文串以及英文符号串等数据到待进行英文分词的列表
   2.3.2 对以上列表进行英文分词 参见2.2 产生英文分词列表
   2.3.3 对剩下的中文字符长串进行中文分词(已经不包括任何特殊或者英文字符)
   2.3.4 产生中文分词列表
        
中文分词算法
 --该算法仅针对纯中文串有效。

算法设计:

 参见:http://xiecc.blog.163.com/blog/static/14032200671110224190/

阅读(1469) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~