for Qreader：下载电子书并转为txt文件-albcamus-ChinaUnix博客

孤舟albcamus.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

albcamus

博客访问： 878864
博文数量： 73
博客积分： 7176
博客等级：少将
技术积分： 2526
用户组：普通用户
注册时间： 2004-12-14 17:16

文章分类

全部博文（73）

文章存档

2012年（1）

2011年（9）

2010年（20）

2009年（28）

2008年（15）

我的朋友

相关博文

for Qreader：下载电子书并转为txt文件

分类： LINUX

2009-04-12 00:02:30

　　S60系统上的Qreader有一种中文程序罕见的美德：支持UTF-8编码。于是我经常下载一些人的文集之类，转换为txt文件，在手机上看。久而久之，发现一个诀窍：

   使用Firefox插件DownloadThemAll！，可以选择的下载一个页面中的所有链接，并且可以指定重命名规则。例如的汪曾祺文集，就可以指定为：

    *name*.*txt*.*ext

   这样，原来网站上的020.htm这个文件，到了我的磁盘上就变成了020.看水.htm，其中"看水"就是索引页面中对这个超链接的描述。

下载之后，由于是gb2312编码的，我这样把它们批量转换为utf8编码、并dump出txt文件：

    $ ls *.htm |while read file; do base=`echo $file |awk -F"." '{ print $1"."$2 }'` && iconv -f gb2312 -t utf8 $file > tmpfile && sed -i 's/charset=gb2312/charset=utf8/g' tmpfile && w3m -dump -T text/html tmpfile > "$base.txt"; done

   我是shell菜鸟！不过它的确工作:) 工作过程是：

    for each htm file:
       -> 取其剔除".htm"后缀的文件名
       -> iconv转换为utf8编码，并写入一个tmpfile
       -> 调用w3m从这个tmpfile里dump出txt来

   菜鸟琢磨出一点点技巧也是很开心的:)

阅读(1671) | 评论(6) | 转发(0) |

上一篇：20歲與30歲的區別

下一篇：Sun Microsystems被Oracle收购

给主人留下些什么吧！~~

chinaunix网友2009-05-01 19:26:46

我是用一个电脑程序批量转换的

回复 | 举报

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6