将PDF转换为HTML而不丢失任何格式 - 问答 - Python中文网

将PDF转换为HTML而不丢失任何格式

2024-05-04 00:11:05 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在开发一个PythonFlask Web应用程序，我正在尝试将一些用户上传的pdf转换为格式良好的HTML，比如在iframe中显示pdf时生成的HTML

到目前为止，我尝试了几种方法：

{}库产生了凌乱的HTML
试图获取生成的HTML，当使用PDF.js呈现PDF时，它显然隐藏在Shadow DOM中，无法访问其内部HTML
最后，我遇到了pdf2htmlEX（https://github.com/pdf2htmlEX/pdf2htmlEX），它产生了我想要的东西

在本地，这个解决方案工作得很好，但是在生产状态（Heroku），我无法正确安装它。该项目已被弃用，文档有限且糟糕。这个问题与破坏的依赖关系有关

那么，如何使用Python或任何其他工具有效地将PDF转换为HTML而不丢失任何格式呢

非常感谢

如果有人愿意帮助我让pdf2htmlEX在heroku上工作，请留下评论，我将在另一篇帖子中发布更多细节

Tags：方法用户 https web 应用程序 pdf html 格式

1条回答

网友

1楼 · 发布于 2024-05-04 00:11:05

这不是小事。但我会给你一些建议

您需要一个app.json用于定义构建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacks

如果通过apt可以使用this project，那就很容易了。您只需使用Heroku's Apt buildpack定义一个Aptfile来说明需要安装哪些软件包Example
然后它会自动安装，您就完成了

如果不能作为包提供，则需要创建自己的构建包。
https://devcenter.heroku.com/articles/buildpack-api
Example使用了{a7}

另一个解决方案是将项目dockerize，并将其作为docker容器执行

相关问题更多 >

编程相关推荐

热门问题

热门文章