到open-phrase上面下载词库
命令:
# cat phrase_pinyin_freq_sc.txt | sort +2 -3 -r -g | awk '{print $2 " " $1 " " $3}' > try.txt
# uniq try.txt | awk '{print $1 " " $2}' > pyPhrase_op.org
得到重复词汇表:
# uniq -c -d try.txt | sort +0 -1 -r -g > duplicate.txt
几个跟SogouLabDic.dic相同的手动发现的勘误:
山陬海噬(山陬海噬?)
以狸致鼠以冰致绳(以狸致鼠、以冰致绳)
初生犊牛(初生犊?)
把pyPhrase_op.org改名成pyPhrase.org,替换fcixt-3.6.0-rc/date/pyPhrase.org,然后重新编译fcitx就可以使用新词库了。
是否还有重复的词还需要我的程序检验。
open-phrase 项目里面的"phrase_pinyin_freq_sc_20090402.txt"经过程序运行,已经没有重复的词汇了,特此声明。
阅读(1673) | 评论(2) | 转发(0) |