PDF文件如何转成markdown格式-i042416-ChinaUnix博客

Chinaunix首页 | 论坛 | 博客

首页　| 　博文目录　| 　关于我

博客访问： 1521767
博文数量： 931
博客积分： 10
博客等级：民兵
技术积分： 10198
用户组：普通用户
注册时间： 2011-07-08 12:28

个人简介

测试

文章分类

全部博文（931）

Kubernetes（26）
微信（12）
Web（11）
数据库（11）
JavaScript（48）
Linux（39）
Chrome（13）
SAP（769）

Hybris（40）

Java（56）

UI5（56）

C4C（64）

S/4（33）

CRM（106）

ABAP（185）

云（125）
未分配的博文（2）

文章存档

2020年（134）

2019年（792）

2018年（5）

我的朋友

岸边的莎

最近访客

推荐博文

相关博文

PDF文件如何转成markdown格式

分类：架构设计与优化

2019-05-11 10:49:20

百度上根据pdf转makrdown为关键字进行搜索，结果大多数是反过来的转换，即markdown文本转PDF格式。

但是PDF转markdown的解决方案很少。

正好我工作上有这个需求，所以自己实现了一个解决方案。

下图是一个用PDF XChange Editor打开的PDF文件，我想将其内容通过markdown格式导出。

(1) 首先将该PDF导出成word格式，后缀.docx

(2）使用typora获得该word文档的markdown源代码：

此时任务只完成了一半，因为typora这个工具转换成的markdown格式，如果原始的word文档里包含图片，这些图片以本地图片的形式存在于markdown里，那我如果直接将包含了这些本地图片的标签的markdown发布到简书，CSDN，开源中国，腾讯云，阿里云这些支持markdown的社区时，这些本地图片将无法显示。

因此我们必须找到一个高效的方法，将word里包含的本地图片先上传到网络上，再用生成的包含了图片网络url的markdown标签替换本地图片标签。
(3) 把word文件的后缀从.docx改成.zip, 解压后，在文件夹word的子文件夹media里能找到所有的本地文件。

把这些本地文件全部上传到网站，生成下面这些url：

我写了一个工具，可以把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码做一个合并，后并后，本地图片标签会被在线图片标签取代：

这个工具可以从我github上获得：

下图就是我的原始PDF转换成markdown格式后发布在某社区上的效果，和原始PDF外观完全一致：

要获取更多Jerry的原创文章，请关注公众号"汪子熙":

阅读(863) | 评论(0) | 转发(0) |

0

上一篇：Salesforce的多态存储和SAP C4C的元数据存储仓库

下一篇：用ABAP代码读取S/4HANA生产订单工序明细

给主人留下些什么吧！~~

关于我们 | 关于IT168 | 联系方式 | 广告合作 | 法律声明 | 免费注册

Copyright 2001-2010 ChinaUnix.net All Rights Reserved 北京皓辰网域网络信息技术有限公司. 版权所有

感谢所有关心和支持过ChinaUnix的朋友们