分类:
2009-07-17 18:13:36
邮件分词算法设计与实现(一)
邮件分词步骤
1. 邮件体文件预处理
1.1 产生邮件主题(解码后)
1.2 产生邮件内容(解码后)
txt 类邮件
html 类邮件 (去除html标签)
有效正文提取。
2. 邮件主题/正文分词
2.1 中英文邮件分类
2.2 英文邮件分词
2.2.1 根据特殊分隔符分词
2.2.2 英文分词长度>1
2.2.3 产生英文分词列表
2.3 中文邮件分词
2.3.1 分离邮件中的英文串以及英文符号串等数据到待进行英文分词的列表
2.3.2 对以上列表进行英文分词 参见2.2 产生英文分词列表
2.3.3 对剩下的中文字符长串进行中文分词(已经不包括任何特殊或者英文字符)
2.3.4 产生中文分词列表
中文分词算法
--该算法仅针对纯中文串有效。
算法设计:
参见:http://xiecc.blog.163.com/blog/static/14032200671110224190/