sed+xsltproc的几个例子-pearma-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

Mac's Tech Collectionpearma.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

博客访问： 425688
博文数量： 116
博客积分： 7087
博客等级：少将
技术积分： 1175
用户组：普通用户
注册时间： 2005-02-19 23:32

文章分类

全部博文（116）

开发平台（24）

linux（0）

windows（0）

mac（15）

palm（2）

mobile（3）

alsa（4）
开发语言（64）

Objective-c（5）

java script .net（26）

SQL研究（4）

aCC（29）
Do Things Right（12）
未分配的博文（16）

文章存档

2012年（1）

2011年（2）

2010年（10）

2009年（21）

2008年（18）

2007年（12）

2006年（21）

2005年（31）

我的朋友

最近访客

推荐博文

相关博文

sed+xsltproc的几个例子

分类： BSD

2011-03-20 16:15:06

最近想从网上下载一些玄幻小说，发现纵横中文网不错，排版比较靠谱。
基本的想法是，用wget下载网页，用sed进行初步过滤，然后用xsltproc进行后续加工，形成能够放在手机上阅读的纯文本。
这件事情只做了一部分，原因是突然发现该网提供了文本文件下载的功能。

不过积累的代码还是有用的。

下载网页的命令：

wget

处理网页用到的sed命令：

sed -n '/正文/,/

/ p' 81135.html |sed -n '// p' |sed 's/<\/tbody>/<\/tr><\/tbody>/'>result.txt

解释：
1.选择网页中包含目录的部分，打印出来
2.在第一步基础上，再次过滤出一部分区域，打印出来
3.在第二步基础上,添加html代码缺失的部分。（纵横的php代码有问题，生成的html不符合规范，少了一个tr）

处理网页用到的xslt脚本：

My CD Collection

        wget select="@chapterId"/>.html

取属性要单独一个模块处理，不能直接拿。

xsltproc命令行：
xsltproc trans.xslt result.txt >1.html

阅读(2957) | 评论(0) | 转发(0) |

0

上一篇：如何枚举所有进程

下一篇：没有了

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们