Chinaunix首页 | 论坛 | 博客
  • 博客访问: 425688
  • 博文数量: 116
  • 博客积分: 7087
  • 博客等级: 少将
  • 技术积分: 1175
  • 用 户 组: 普通用户
  • 注册时间: 2005-02-19 23:32
文章分类

全部博文(116)

文章存档

2012年(1)

2011年(2)

2010年(10)

2009年(21)

2008年(18)

2007年(12)

2006年(21)

2005年(31)

我的朋友

分类: BSD

2011-03-20 16:15:06

最近想从网上下载一些玄幻小说,发现纵横中文网不错,排版比较靠谱。
基本的想法是,用wget下载网页,用sed进行初步过滤,然后用xsltproc进行后续加工,形成能够放在手机上阅读的纯文本。
这件事情只做了一部分,原因是突然发现该网提供了文本文件下载的功能。

不过积累的代码还是有用的。

下载网页的命令:

wget

处理网页用到的sed命令:

sed -n '/正文/,/
/ p' 81135.html |sed -n '// p' |sed 's/<\/tbody>/<\/tr><\/tbody>/'>result.txt

解释:
1.选择网页中包含目录的部分,打印出来
2.在第一步基础上,再次过滤出一部分区域,打印出来
3.在第二步基础上,添加html代码缺失的部分。(纵横的php代码有问题,生成的html不符合规范,少了一个tr)

处理网页用到的xslt脚本:






 
 
 

My CD Collection


     
   
       
   

       

     

 
 



   
        wget select="@chapterId"/>.html
   

   
       
   





取属性要单独一个模块处理,不能直接拿。


xsltproc命令行:
xsltproc trans.xslt result.txt >1.html




阅读(2957) | 评论(0) | 转发(0) |
0

上一篇:如何枚举所有进程

下一篇:没有了

给主人留下些什么吧!~~