将PDF转换为HTML而不丢失任何格式

2024-05-04 00:11:05 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在开发一个PythonFlask Web应用程序,我正在尝试将一些用户上传的pdf转换为格式良好的HTML,比如在iframe中显示pdf时生成的HTML

到目前为止,我尝试了几种方法:

  • {}库产生了凌乱的HTML
  • 试图获取生成的HTML,当使用PDF.js呈现PDF时,它显然隐藏在Shadow DOM中,无法访问其内部HTML
  • 最后,我遇到了pdf2htmlEXhttps://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西

在本地,这个解决方案工作得很好,但是在生产状态(Heroku),我无法正确安装它。该项目已被弃用,文档有限且糟糕。这个问题与破坏的依赖关系有关

那么,如何使用Python或任何其他工具有效地将PDF转换为HTML而不丢失任何格式呢

非常感谢

如果有人愿意帮助我让pdf2htmlEX在heroku上工作,请留下评论,我将在另一篇帖子中发布更多细节


Tags: 方法用户httpsweb应用程序pdfhtml格式
1条回答
网友
1楼 · 发布于 2024-05-04 00:11:05

这不是小事。但我会给你一些建议

您需要一个app.json用于定义构建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacks

如果通过apt可以使用this project,那就很容易了。您只需使用Heroku's Apt buildpack定义一个Aptfile来说明需要安装哪些软件包Example
然后它会自动安装,您就完成了

如果不能作为包提供,则需要创建自己的构建包。
https://devcenter.heroku.com/articles/buildpack-api
Example使用了{a7}

另一个解决方案是将项目dockerize,并将其作为docker容器执行

相关问题 更多 >