Chinaunix首页 | 论坛 | 博客
  • 博客访问: 23957
  • 博文数量: 21
  • 博客积分: 2853
  • 博客等级: 少校
  • 技术积分: 220
  • 用 户 组: 普通用户
  • 注册时间: 2011-03-28 21:01
文章分类
文章存档

2011年(21)

我的朋友
最近访客

分类: LINUX

2011-05-11 00:06:14

 前面舍得讲的制作词库,基本上是靠转换其他格式的词库而来的。那有没有办法看到一篇文章,就能把其中的词汇整理出来呢?换句话说,有没有不靠现成词库的办法?

    这个问题基本上有两个解决的思路,一是玩“粘贴”***,就是看到生词就粘贴到一起,需要慢慢地积累,二是使用一些工具,来快速地将英文资料转换成SuperMemo的格式。

    舍得在这里讲一下如何实现第二种思路,认为没有必要进行这种转换的朋友,则可以直接跳过本文。

    舍得有个IT行业的朋友讲的好,用电脑就是用软件。这话虽然有些直白,但很有道理。我们若学会掌握一些合适的工具软件的话,对提高我们的学习和工作效率会很有帮助。SuperMemo如此,舍得推荐的其他软件也是如此。
    一、工具的准备

    舍得建议大家使用下边这些工具:

    【注意,因为BiBiDu的服务出了某些问题,下面提到的软件请到舍得学苑下载中心下载,添加单词释义请选用金山生词本2007精简版】

    1.词频分析软件EngWordFreq4.0:这是武汉大学沈阳博士制作的一款软件,用它可以快速提取英文文章中的单词,并带有词频分析:BiBiDu下载;

    2.西瓜外语通1.4.5.5092:用它来给上面这个词频分析软件提取出来的单词加上释义。原版下载地址:华军软件园下载;破解补丁下载地址:BiBiDu下载;

    3.[可选]如果不喜欢西瓜外语通,你也可以使用新东方背单词5.0:VeryCD下载;或金山词霸(建议使用2007版,2009版的生词本有些问题):VeryCD下载;(友情提醒:从电骡上下载的资源速度可能会相对较慢,需要较大的耐心,尤其是软件的早期版本)

    4.Emeditor 8.04:BiBiDu下载;(喜欢此软件的朋友还可以下载其插件集:BiBiDu下载)
    二、提取单词

    1.打开词频分析EngWordFreq:
    2.你下载的压缩包中有一个Sample.txt文件,这是我为你的练习准备的文件,点击左上角的“打开文件并统计”按钮打开这个Sample.txt(在该软件里可以使用文本文件或Word文档,建议使用前者)。
     3.鼠标右键点击右侧的文档显示窗口,从弹出的菜单中选择“保存当前词表”,取一个文件名后保存:
    三、简单处理

    1.先对刚才的文本进行简单的处理,用Emeditor打开刚才保存好的文件.
    2.点击“搜索->替换”菜单(或按快捷键“Ctrl+H”),打开替换对话框,勾选上使用正则表达式,然后

    在搜索对话框的查找文本框内输入:s.*?$

    替换框内留空。

    点击“全部替换”按钮。

    说明:“s”表示空格,这段表达式的作用是将空格后的所有字符删除。
    3.点击“文件-另存为”菜单,从“换行模式”后的下拉列表框中选择“CR+LF(windows)”,然后点击保存按钮(文件名可以保持不变)。
    四、提取释义

    4.打开西瓜外语通程序(注意打好破解补丁),右键点击窗口中任意位置,从弹出的快捷菜单中选择“导入内容->单词列表(自动加音标注释)”:
    5.然后选择你刚才处理好的文件。导入完成后,拉动右侧的小滑块,看一下一共有多少条数据,比如这次我们一共导入了585条:
    6.在右上方的“范围重复”中输入“1”和“585”(“1”其实不用输入,为了行文方便)。
    7.右键点击窗口中任意位置,从弹出的快捷菜单中选择“导出内容->简易单词:每个单词占一行”:
    8.弹出确认对话框,选择“OK”后继续:
    9.输入一个文件名(或保持默认),点击“保存”按钮,这一步工作就做完了。
    注意:1)如在步骤1中你只导入了少量几行(甚至只有1行),那说明你的文本没有处理好,注意检查在上一节中是否没有另存成“CR+LF格式”。

          2)如果在步骤9后发现导出的数量不对,检查一下是否在步骤6中的范围没有正确输入。

 

    五、转换成SuperMemo的格式

    这一步,看过前面舍得写的《词库制作篇》的朋友应该都会的,但舍得还是准备写一下:

    1.有些单词可能辞典里没有,我们先来把这些词删除掉,这要分成几小步来做:

    1)点击“搜索->替换”菜单,打开替换对话框,
    在查找文本框中输入:(^.*?[[:unicode:]])
    在替换文本框中输入:%
    要点:这一步的意思是给带有中文的行前加上一个“%”(你先可以选择其他的符号,如#、&等,但不要用正则表达式中的特殊字符)。“^.”表示行首是除回车符外的任意字符,也可以考虑用“^[a-z]”(注意“区分大小写”那一项不要勾,防止行首有大写字母)。
    2)删掉不带“%”的行:
    查找:^[^%].*?$
    替换文本框内留空
    要点:这里再复习一下“^[^%]”的用法,这个表示“行首不是%”。
    2.接下来就简单多了:
    1)将“%”替换成“Q: ”
    查找:^%
    替换成:Q:
    要点:注意加上“^”,这样就只删除行首的“%”。“Q:”后面要加个空格。
    2)将中文分到另一行,并在行首加上“A: ”
    查找: {1,4
    替换成: A:
    要点:因为西瓜外语通中导出的文本有的是一个“Tab空格”,有的是2个甚至3个“Tab空格”,所以这里用了“ {1,4}”来表示1-4个“Tab空格”通吃。另外同样要注意“A:”后要加个空格。
    3.把文件保存成“中欧(ISO)”编码,到这里词库制作就圆满完成了。。这一步若不明白请参考SuperMemo2006之词库制作篇(中),舍得不再赘述。如果经常要用到这项操作的朋友,建议你们将Emeditor中的步骤录制成宏,那么在以后的转换过程中就能节省更多的时间。宏的录制部分请参看:SuperMemo2006之词库制作篇(下).
    六、提取单词释义的另一法
    若想用其他工具来提取音标和释义,舍得还有两个工具可以推荐,那就是金山词霸2007和新东方背单词5.0. 下面简单讲一下方法:
    (一)使用金山词霸2007:
    1.做完“三、简单处理”这些步骤之后,从金山词霸的安装文件夹中找到“Newword.exe”这个程序,运行它:
    2.点击右侧的导入按钮,选择你整理好的文本,开始导入(或用鼠标右键点击窗口中任意位置,从弹出的快捷菜单中选择“单词导入单词”)。
    导入后的结果如下图:
    3.完成后选择导出按钮,在弹出的对话框中勾选“词典中所有单词”和“纯文本文本格式”:
    4.取一个文件名,保存完成。
    (二)使用新东方背单词5
    1.做完“三、简单处理”这些步骤之后,运行新东方背单词5,选择“书籍管理”按钮:
    2.选择“添加新书”按钮(以后经常用这本书就可以,可考虑选择“清空新增单词”,免得重复),输入一个文件名后继续:
    3.点击“成批导入”按钮,选择前面整理好的文件后,系统会问:“是否允许加入重复单词?”,建议选“否”。
    4.系统进行一定的转换(新东方背单词速度是三款软件中最慢的):
    5.导入完成后,选择“单词导出”按钮,从弹出的菜单中选择“打印到文件”,取一个文件名即可。
    这样,提取释义的过程就完成了。新东方背单词导出的是RTF格式,要使用Emeditor来处理需粘贴到文本文件中(或另存成文本文件),当然有朋友要说,用Word的搜索与替换也可以啊。对,Word也具备类似的功能,语法不一样而已。大家空闲的时候可以研究一下。

    三款软件中,新东方和金山导出的音标是最容易进行后续处理的,西瓜外语通不是不能导出音标,只是它要导出音标的话必须使用RTF格式,而根据舍得的判断,软件作者在音标字符的转换上似乎没有处理好,它导出的音标在RTF下显示是正常的,但你无论使用粘贴还是另存文件,之后的结果都是音标会消失。当然你也可以尝试用Word的搜索与替换直接将它转SuperMemo能用的格式,只是舍得在这里先提醒一下,最后一步转成“中欧(ISO)”编码Word实现起来估计够费劲。

    后面的整理过程就留给大家自行操作吧,就当是舍得给大家布置的家庭作业了。


 

关键词: 本文网址:
阅读(1011) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~