是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 根据作者的介绍,这个分词系统是对中国科学院计算技术研究所免费提供的 共享版分词后的结果,再采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果进行合并处理,输出最终分词结果。目前只支持GBK编码。 作者测试,局域网内 HTTPCWS 接口中文分词平均处理速度(Wait时间):0.001秒,每秒可处理5000~20000次请求。(
演示地址)
阅读(626) | 评论(0) | 转发(0) |