将pdf读入python的最佳实践

2024-06-28 11:15:09 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图将一个pdf文档(我删除了一些敏感数据的内容原因:https://ufile.io/bgghw)读入python。我必须使用复选框并根据这些文本和其他文本执行操作。在

我尝试了PyPDF3,但它只给出了损坏的输出,经过一点研究,我发现pdfminer听起来有希望使用python2.7。在

我不确定是否有其他的包,或者是否有一个在python中使用pdf的最佳实践,因为我得到的所有信息都是几年前的,而且大多数信息都是相反的。 当然,我可以用最好的方案来解决我的问题:)

谢谢你的建议!在


Tags: 文档httpsio文本信息内容pdf方案
1条回答
网友
1楼 · 发布于 2024-06-28 11:15:09

第一个选项:PyPDF2

首先在cmd中运行这个命令来安装PyPDF2:(可能比您已经尝试过的PyPDF3工作得更好)

pip install PyPDF2

然后使用以下代码从pdf文件中提取文本:

^{2}$

第二个选项:Textract

在cmd中运行这个来安装textract

pip install textract

然后使用以下代码阅读pdf:

import textract
text = textract.process('path/to/pdf/file', method='pdfminer')

祝你好运!在

相关问题 更多 >