发博文
miracle

miracle.blog.chinaunix.net

别了,米君双层蔬菜堡   
个人资料
  • 博客访问:344866
  • 博文数量:541
  • 博客积分:12169
  • 博客等级:上将
  • 关注人气: 4
  • 注册时间:2007-01-19 14:41:02
订阅我的博客
  • 订阅
  • 订阅到鲜果
  • 订阅到抓虾
  • 订阅到Google
字体大小: 博文
分类: Software


到open-phrase上面下载词库http://code.google.com/p/open-phrase/
命令:
# cat phrase_pinyin_freq_sc.txt | sort +2 -3 -r -g | awk '{print $2 " " $1 " " $3}' > try.txt
# uniq try.txt | awk '{print $1 " " $2}' > pyPhrase_op.org

得到重复词汇表:
# uniq -c -d try.txt | sort +0 -1 -r -g > duplicate.txt

几个跟SogouLabDic.dic相同的手动发现的勘误:
山陬海噬(山陬海噬)
以狸致鼠以冰致绳(以狸致鼠、以冰致绳)
初生犊牛(初生犊)

把pyPhrase_op.org改名成pyPhrase.org,替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了。
是否还有重复的词还需要我的程序检验。

open-phrase 项目里面的"phrase_pinyin_freq_sc_20090402.txt"经过程序运行,已经没有重复的词汇了,特此声明。

[发评论] 评论 重要提示:警惕虚假中奖信息!
  • chinaunix网友 2009-05-26 22:48
    好像这样不行,导入后发现词库丢库。与原pyPhrase.org比较,发现fcitx原来的文件是GB18030编码的,而转换的是utf-8的。用kate打开该文件(gedit打开好像有乱码)另存为GB18030编码后再编译安装,成功! 实测仍有重复词组,但更多的词库整体来说还是使fcitx比以前更好用了。
  • chinaunix网友 2009-05-20 23:01
    不错,已经用上了
亲,您还没有登录,请[登录][注册]后再进行评论