使用sphinx生成Kindle电子书-lli

EmbLinuxnetwalker.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

lli_njupt

博客访问： 416497
博文数量： 36
博客积分： 960
博客等级：准尉
技术积分： 1368
用户组：普通用户
注册时间： 2011-04-13 19:26

文章分类

全部博文（36）

学习方法（5）
内核驱动（20）
网络编程（2）
编程语言（1）
水滴石穿（1）
编辑编译（7）
未分配的博文（0）

文章存档

2018年（3）

2012年（6）

2011年（27）

我的朋友

相关博文

使用sphinx生成Kindle电子书

分类： Python/Ruby

2018-10-17 16:52:53

无论通过电脑端浏览器还是通过手机浏览新闻，资料，文章，博文等等，都会被不胜其烦的弹出广告，横条，xx图片，xx视频所干扰，最后的结果是链接跳来跳去竟然忘记了最初想浏览的东西。

我想大多数人都有这种困扰，讲求眼球经济的互联网时代将所有人的时间都碎片化，每个人每天似乎花费了很多时间来接触新闻，新知识，但是长久下来发现这种方式毫无裨益，只不过是浪费了好多宝贵时间。使用Kindle浏览epub，mobi格式电子书，甚至txt文档就不会有此困扰。

在接触sphinx时发现竟然支持epub格式电子书的生成，实在是庆幸。sphinx最初由Python社区使用用来撰写Python的使用文档，后来又被Linux内核采纳，已经成为了最流行的软件工程文档书写的开源软件。笔者尝试使用sphinx来生成电子书，发现效果竟然出奇的好，只要不是太复杂的网页内容，采用sphinx支持的rst语法来表达完全够用。

从网页到epub流程：
1.将关注的网页文档通过爬取程序爬取
2.将爬取的网页格式化为rst文件
3.使用sphinx将rst文件生成为epub格式的电子书

使用 httplib2 和 BeautifulSoup很容易实现网络爬虫。但是对于微信等数据封闭的应用，则要模拟浏览器进行爬取。

sphinx在生成epub时要注意需要注释掉 conf.py 中的epub_theme主题，测试发现采用该主题生成的epub不适合在kindle上浏览。
#epub_theme = 'alabaster'

作者的一个示例:
可以通过 git clone 获取源码，然后执行 make epub生成电子书，也可以直接下载附录文件解压即可。

实现理想的全自动的新闻/资料/微信等等收集器爬虫，每天晚上自动把关心的文章收集并生成epub推送到邮箱，然后在Kindle上浏览，将会得到不错的阅读体验，实现起来也不太难。

RadioStory.zip

几年前写过一个爬取网易某板块文章的爬虫，竟然神奇的发现今天依然可以正常运行，可见大部分网站架构一旦成型，底层的代码基本上很少会被改动，对于机械式的爬虫来说，只要网页的布局结构没有变化，爬虫就可以持续工作。如何让爬虫智能识别有效目标并抓取是一个有意思的探索，而把抓取的目标进行自动校正，比如中文拼写，语法错误，不适当的换行排版能够自动识别和校正将更有意思，如果通过深度学习，统计学习等方法将机械爬虫训练为为带有人工智能的爬虫，将是很有意思的事，其适用面也将更大，完善中。

阅读(2128) | 评论(0) | 转发(0) |

上一篇：使用sphinx撰写文档，readthedocs发布文档

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6