最近想从网上下载一些玄幻小说,发现纵横中文网不错,排版比较靠谱。
基本的想法是,用wget下载网页,用sed进行初步过滤,然后用xsltproc进行后续加工,形成能够放在手机上阅读的纯文本。
这件事情只做了一部分,原因是突然发现该网提供了文本文件下载的功能。
不过积累的代码还是有用的。
下载网页的命令:wget
处理网页用到的sed命令:
sed -n '/正文/,/
/ p' 81135.html |sed -n '/
/ p' |sed 's/<\/tbody>/<\/tr><\/tbody>/'>result.txt
解释:
1.选择网页中包含目录的部分,打印出来
2.在第一步基础上,再次过滤出一部分区域,打印出来
3.在第二步基础上,添加html代码缺失的部分。(纵横的php代码有问题,生成的html不符合规范,少了一个tr)
处理网页用到的xslt脚本:
My CD Collection
wget select="@chapterId"/>.html
取属性要单独一个模块处理,不能直接拿。
xsltproc命令行:
xsltproc trans.xslt result.txt >1.html
阅读(2957) | 评论(0) | 转发(0) |