无论通过电脑端浏览器还是通过手机浏览新闻,资料,文章,博文等等,都会被不胜其烦的弹出广告,横条,xx图片,xx视频所干扰,最后的结果是链接跳来跳去竟然忘记了最初想浏览的东西。
我想大多数人都有这种困扰,讲求眼球经济的互联网时代将所有人的时间都碎片化,每个人每天似乎花费了很多时间来接触新闻,新知识,但是长久下来发现这种方式毫无裨益,只不过是浪费了好多宝贵时间。使用Kindle浏览epub,mobi格式电子书,甚至txt文档就不会有此困扰。
在接触sphinx时发现竟然支持epub格式电子书的生成,实在是庆幸。sphinx最初由Python社区使用用来撰写Python的使用文档,后来又被Linux内核采纳,已经成为了最流行的软件工程文档书写的开源软件。笔者尝试使用sphinx来生成电子书,发现效果竟然出奇的好,只要不是太复杂的网页内容,采用sphinx支持的rst语法来表达完全够用。
从网页到epub流程:
1.将关注的网页文档通过爬取程序爬取
2.将爬取的网页格式化为rst文件
3.使用sphinx将rst文件生成为epub格式的电子书
使用 httplib2 和 BeautifulSoup很容易实现网络爬虫。但是对于微信等数据封闭的应用,则要模拟浏览器进行爬取。
sphinx在生成epub时要注意需要注释掉 conf.py 中的epub_theme主题,测试发现采用该主题生成的epub不适合在kindle上浏览。
#epub_theme = 'alabaster'
作者的一个示例:
可以通过 git clone 获取源码,然后执行 make epub生成电子书,也可以直接下载附录文件解压即可。
实现理想的全自动的新闻/资料/微信等等收集器爬虫,每天晚上自动把关心的文章收集并生成epub推送到邮箱,然后在Kindle上浏览,将会得到不错的阅读体验,实现起来也不太难。
RadioStory.zip
几年前写过一个爬取网易某板块文章的爬虫,竟然神奇的发现今天依然可以正常运行,可见大部分网站架构一旦成型,底层的代码基本上很少会被改动,对于机械式的爬虫来说,只要网页的布局结构没有变化,爬虫就可以持续工作。如何让爬虫智能识别有效目标并抓取是一个有意思的探索,而把抓取的目标进行自动校正,比如中文拼写,语法错误,不适当的换行排版能够自动识别和校正将更有意思,如果通过深度学习,统计学习等方法将机械爬虫训练为为带有人工智能的爬虫,将是很有意思的事,其适用面也将更大,
完善中。
阅读(2053) | 评论(0) | 转发(0) |