分类:
2006-12-15 11:02:44
汉语分词是中文内容处理、分析与理解的必要条件,它的任何错误都将使处理结果受到或大或小的影响,有时是严重的影响。从1983年第一个实用分词系统CDWS的诞生到现在,国内外的研究者在汉语分词方面进行了广泛的研究。我们可以粗略地将这些系统分为两代:第一代是基于语言学知识的机械规则方法,例如:最大匹配、最少切分方法、错误驱动机制。第二代是基于大规模语料库的机器学习方法,比如N元语言模型,信道-噪声模型,最大期望,隐马模型等。第一代和第二代分词系统往往缺乏一个相对统一的模型框架将分词算法、切分排歧和未登录词识别进行有机的融合,对切分结果也缺乏统一的评估体系。最终导致分词的准确率在开放测试的条件下并不像宣称的那样理想,处理含有未登录词、歧义字段的真实文本时,效果更是不尽人意。
飞嘉华智能科技有限公司的科学家们在继承优秀研究成果的基础上,综合统计方法、语义网络、模式推理与语言进化论等领域的最新研究成果,推出了第三代智能分词系统3GWS(the 3rd Generation Word Segmenter)。其主要功能有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典。3GWS是飞嘉华公司智能分词系列产品的统称,其中有简体GB2312智能分词系统,繁体BIG5智能分词系统以及Unicode智能分词系统。与同类型的实验系统和商用产品对比,3GWS具有三大特色:
² 速度与精度综合性能最优
分词系统能否达到实用性要求主要取决于两个因素:分词精度与分析速度,这两者相互制约,难以平衡。飞嘉华的科学家们研制出了完美PDAT大规模知识库管理技术,在高速度与高精度之间取得了重大突破,该技术可以管理超大规模的词典知识库,而查询时间与词典规模无关,其时间复杂度为O(length),length为查询词的长度。而内存消耗不到知识库大小的1.5倍。基于完美PDAT技术进行最大匹配分词,在PIV3.0G/256M的PC机上,可以达到23.1MB/s的速度。
我们利用了《人民日报》1998年1月的新闻纯文本语料进行开放测试,3GWS测试的精度与速度如下表所示:
开放测试一 | 开放测试二 | 开放测试三 | |
功能描述 | 分词 | 分词+命名实体与新词识 | 分词+命名实体与新词识别+词性标注 |
测试文件大小 | 4,092,478 Bytes | 4,092,478 Bytes | 4,092,478 Bytes |
时间(s) | 4.094000 | 6.467561 | 9.094001 |
核心数据所占内存 | 5.5MB | 7.2MB | 8.9MB |
速度 | 999.63 KB/s | 632.77 KB/s | 450.02 KB/s |
精度 | 分词精度:96.56% | 分词精度:98.13% | 分词精度:98.13%; |
词性标注精度:94.63% | |||
说明: 1. 测试机器配置:CPU: PIV3.0G;内存:512M; 2. 分词精度指的是正确切分的词数占正确结果总词数的百分比;词性标注精度指的是切分与词性标注均正确的词数占正确结果总词数的百分比。 3. 开放测试:指的是测试样本不属于训练样本集合,否则称为封闭测试;封闭测试相当于考试试题都出自于学习过的书本,这种测试并没有实质意义,而往往有一些商家故意混淆视听,以封闭测试来冒充开放测试,制造准确率99.5%的噱头,实际上,通过机械记忆小样本的封闭测试取得100%的精度不存在任何问题。这一点特别提请用户注意。 |
² 跨平台开放性支持
3GWS完全采用标准C/C++开发,实现了跨平台的无缝支持。3GWS的COM组件与静态连接库支持各种编码、跨操作系统、可以在目前所有主流的开发环境下进行二次开发调用,详细列表如下:
支持的编码 | 中文简体GB2312、中文繁体BIG5、Unicode |
支持的操作系统 | Win95/98/2000/XP;WinNT;Linux/Unix/FreeBSD,... |
支持的开发环境 | C/C++/Java/Delphi/VB,... |
² 按需订制
3GWS可以按照用户的需求进行API定制,主要的定制包括:
1. 模块定制:3GWS的人名识别、词性标注等模块均可以根据需要进行定制,比如,大部分应用并不需要词性标注模块,用户可以卸载该模块,从而进一步提供分词的速度。
2. 核心词典与参数定制,用户可以根据自己领域的特点,提供相关的语料库,3GWS可以重新训练,订制一套更适合于自身领域的知识库和参数库。
3. 用户词典定制:用户可以提供自定义的词典,3GWS可以将用户词典有机地整合到系统知识库中。 目前,我们已经涵盖了当前人们生活中常见的新词语12万条。
4. 词类定制:用户可以定义自己的词类;
应用场景
汉语自动智能分词是中文信息处理的基础与关键。所有涉及中文内容处理的系统,如果没有一个好的中文词法分析系统支持,正确率都会受很大影响。具体来说,汉语自动智能分词的主要应用领域包括:
l 中文输入输出技术:连续语音识别、小键盘智能拼音输入、高自然度语音合成、视频文字识别、OCR;自动校对;高性能的汉字编码识别、简繁体智能转换;
l 语言学分析:重复串分析、新词识别、句法分析、篇章分析、语义理解与歧义消解;
l 文本挖掘:自动文摘、命名实体识别与信息抽取、文本分类、文本聚类、信息过滤、自动问答;
l Web挖掘:信息检索(搜索引擎、问答式搜索引擎、面向行业的专业搜索引擎)
l 智能应用:机器翻译、外语辅助写作、用户兴趣发现、情报分析、垃圾邮件与垃圾短信过滤、有害(垃圾、诈骗、色情、反动)信息监控等;
l 信息增值服务:商情信息自动抽取与统计分析,如房地产信息、产品采购与销售信息;