Chinaunix首页 | 论坛 | 博客
  • 博客访问: 2653648
  • 博文数量: 416
  • 博客积分: 10220
  • 博客等级: 上将
  • 技术积分: 4193
  • 用 户 组: 普通用户
  • 注册时间: 2006-12-15 09:47
文章分类

全部博文(416)

文章存档

2022年(1)

2021年(1)

2020年(1)

2019年(5)

2018年(7)

2017年(6)

2016年(7)

2015年(11)

2014年(1)

2012年(5)

2011年(7)

2010年(35)

2009年(64)

2008年(48)

2007年(177)

2006年(40)

我的朋友

分类:

2006-12-15 10:51:14

海量中文智能分词基础件是海量公司()推出的主导产品,该产品一经推向市场,其优秀的性能即赢得客户的青睐。目前,标志分词性能的两大指标又有新突破,封闭语料分词准确率达到99.6%;在普通配置的个人计算机上(CPU-Amd 2500+;内存-512M DDR)分词效率达到2000万字/分钟强,实用化程度进一步增强。该产品一旦获得广泛应用,必将带来其相关下游产品及技术的一次飞跃。

海量中文智能分词从属于“高准确率”

  在信息高度发展的时代,信息处理技术是其关键技术之一。纵观世界范围信息技术的发展,西文的信息处理技术要优于中文,根本原因在于与西文相比,中文分词存在的技术难题更大。对于中文来说,词是承载语义的最小单位。单个汉字一般很难单独表达一定的含义,而中文的词是没有自然分隔符的,需要采取一定的技术手段将词准确的分离出来,西文则不同,所以,西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域。对于中文,只有越过这个技术瓶颈问题,分词的准确率足够高、分词速度足够快,中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。

  随着中国在世界经济体系中的影响力不断增强,中文应用范围也越来越广泛,用户对中文信息的科学的管理的需求也在急速膨胀。在这种背景下,中文处理市场对于中文处理技术的需求也越来越迫切。以中文检索市场领域为例,一方面,国内的传统及新兴软件厂商开始涉足这个领域,另一方面,越来越多的国外大厂商也进军这个领域,纷纷在国内设立研究机构,投入巨资进行相应技术的研发工作,例如:微软、IBM等。但是,多年以来在分词这个基础技术一直没有很大的突破性进展。这样,大大制约了中文检索技术向更高层次发展。

  海量公司()自1999年介入分词领域以来,凭借着对智能分词技术的独特理解及精益求精的技术研发要求,开发出了海量智能分词基础件产品。该产品一经推出,便获得市场认可,国内外知名厂商如中国搜索、Autonomy等多家公司已经集成了该产品,获得了用户及合作伙伴的认同。

  六年以来,海量公司()一直专注于中文信息处理技术领域的基础性研究工作。中文智能分词是其重点研发的技术之一,公司对该项核心技术具有完全的自主知识产权。目前,该项技术在国内处于领先水平,其分词准确率达到99.6%,分词效率为2000万字/分钟。

  海量分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。组合歧义的处理一直是分词领域的难点中的难点,其他的分词技术对此基本未涉及,海量公司()经过不懈努力,在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量分词在实际应用中所表现出的优秀品质。

  在海量中文智能分词技术基础上,海量公司()推出了体现其优秀品质的中文分词产品---海量中文智能分词基础件。在体现词形切分准确的基础上,根据客户对分词基础件实际应用的需要,该产品还附加了词性的输出,如:人名、地名、时间词、数量词等。

  海量中文智能分词基础件具有灵活定制的特点,支持多平台、 支持多码制、 针对不同应用可量身定做多种版本; 且扩展性极强。客户可根据应用范围选择需要增加的词表,如中国分类主题词表、中国商用、关键词表、行业词表、港台用语词表等。

  海量中文智能分词基础件广泛应用于:搜索引擎、知识管理、自动翻译、语音合成、汉字输入、语义处理等领域。

总之,海量中文智能分词基础件主要具有如下功能特色:

歧义识别。依靠优秀的海量中文智能分词功能基础件依靠优秀的歧义识别算法,有效的避免了分 词歧义的产生,使分词的准确率大大提高。
未登录词识别。 海量中文智能分词功能基础件采用了先进的新词识别算法,能够自动准确地识别人名地名未登录词。
外挂用户词典:用户可以根据自己的需求定义新词,利用海量中文智能分词软件包的接口与分词系统进行挂接。
关键词标注:从用户输入的一句话或者几个词组中,抽取其中的核心词汇。
词性标注:标明词的属性(如:人名、地名、数量、时间等) 
主题词标注:自动标注文章的主题词及等同词、上位词、下位词、同类词的相关内容。
支持的字符集:支持GB18030、BIG5、Unicode 

 

原文:

阅读(2325) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~