Chinaunix首页 | 论坛 | 博客
  • 博客访问: 4584199
  • 博文数量: 1214
  • 博客积分: 13195
  • 博客等级: 上将
  • 技术积分: 9105
  • 用 户 组: 普通用户
  • 注册时间: 2007-01-19 14:41
个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文(1214)

文章存档

2021年(13)

2020年(49)

2019年(14)

2018年(27)

2017年(69)

2016年(100)

2015年(106)

2014年(240)

2013年(5)

2012年(193)

2011年(155)

2010年(93)

2009年(62)

2008年(51)

2007年(37)

分类: LINUX

2009-03-30 14:39:51

到open-phrase上面下载词库
命令:
# cat phrase_pinyin_freq_sc.txt | sort +2 -3 -r -g | awk '{print $2 " " $1 " " $3}' > try.txt
# uniq try.txt | awk '{print $1 " " $2}' > pyPhrase_op.org

得到重复词汇表:
# uniq -c -d try.txt | sort +0 -1 -r -g > duplicate.txt

几个跟SogouLabDic.dic相同的手动发现的勘误:
山陬海噬(山陬海噬?)
以狸致鼠以冰致绳(以狸致鼠、以冰致绳)
初生犊牛(初生犊?)

把pyPhrase_op.org改名成pyPhrase.org,替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了。
是否还有重复的词还需要我的程序检验。

open-phrase 项目里面的"phrase_pinyin_freq_sc_20090402.txt"经过程序运行,已经没有重复的词汇了,特此声明。
阅读(3224) | 评论(2) | 转发(0) |
给主人留下些什么吧!~~

chinaunix网友2009-05-26 22:48:44

好像这样不行,导入后发现词库丢库。与原pyPhrase.org比较,发现fcitx原来的文件是GB18030编码的,而转换的是utf-8的。用kate打开该文件(gedit打开好像有乱码)另存为GB18030编码后再编译安装,成功! 实测仍有重复词组,但更多的词库整体来说还是使fcitx比以前更好用了。

chinaunix网友2009-05-20 23:01:37

不错,已经用上了