Chinaunix首页 | 论坛 | 博客
  • 博客访问: 411939
  • 博文数量: 36
  • 博客积分: 960
  • 博客等级: 准尉
  • 技术积分: 1368
  • 用 户 组: 普通用户
  • 注册时间: 2011-04-13 19:26
文章分类
文章存档

2018年(3)

2012年(6)

2011年(27)

分类: Python/Ruby

2018-10-17 16:52:53

无论通过电脑端浏览器还是通过手机浏览新闻,资料,文章,博文等等,都会被不胜其烦的弹出广告,横条,xx图片,xx视频所干扰,最后的结果是链接跳来跳去竟然忘记了最初想浏览的东西。

我想大多数人都有这种困扰,讲求眼球经济的互联网时代将所有人的时间都碎片化,每个人每天似乎花费了很多时间来接触新闻,新知识,但是长久下来发现这种方式毫无裨益,只不过是浪费了好多宝贵时间。使用Kindle浏览epub,mobi格式电子书,甚至txt文档就不会有此困扰。

在接触sphinx时发现竟然支持epub格式电子书的生成,实在是庆幸。sphinx最初由Python社区使用用来撰写Python的使用文档,后来又被Linux内核采纳,已经成为了最流行的软件工程文档书写的开源软件。笔者尝试使用sphinx来生成电子书,发现效果竟然出奇的好,只要不是太复杂的网页内容,采用sphinx支持的rst语法来表达完全够用。

从网页到epub流程:
1.将关注的网页文档通过爬取程序爬取
2.将爬取的网页格式化为rst文件
3.使用sphinx将rst文件生成为epub格式的电子书

使用 httplib2 和 BeautifulSoup很容易实现网络爬虫。但是对于微信等数据封闭的应用,则要模拟浏览器进行爬取。

sphinx在生成epub时要注意需要注释掉 conf.py 中的epub_theme主题,测试发现采用该主题生成的epub不适合在kindle上浏览。
#epub_theme = 'alabaster'

作者的一个示例: 
可以通过 git clone 获取源码,然后执行 make epub生成电子书,也可以直接下载附录文件解压即可。

实现理想的全自动的新闻/资料/微信等等收集器爬虫,每天晚上自动把关心的文章收集并生成epub推送到邮箱,然后在Kindle上浏览,将会得到不错的阅读体验,实现起来也不太难。

RadioStory.zip

几年前写过一个爬取网易某板块文章的爬虫,竟然神奇的发现今天依然可以正常运行,可见大部分网站架构一旦成型,底层的代码基本上很少会被改动,对于机械式的爬虫来说,只要网页的布局结构没有变化,爬虫就可以持续工作。如何让爬虫智能识别有效目标并抓取是一个有意思的探索,而把抓取的目标进行自动校正,比如中文拼写,语法错误,不适当的换行排版能够自动识别和校正将更有意思,如果通过深度学习,统计学习等方法将机械爬虫训练为为带有人工智能的爬虫,将是很有意思的事,其适用面也将更大,完善中
阅读(2046) | 评论(0) | 转发(0) |
0

上一篇:使用sphinx撰写文档,readthedocs发布文档

下一篇:没有了

给主人留下些什么吧!~~