将pdf读入python的最佳实践 - 问答 - Python中文网

将pdf读入python的最佳实践

2024-06-28 11:15:09 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我试图将一个pdf文档（我删除了一些敏感数据的内容原因：https://ufile.io/bgghw）读入python。我必须使用复选框并根据这些文本和其他文本执行操作。在

我尝试了PyPDF3，但它只给出了损坏的输出，经过一点研究，我发现pdfminer听起来有希望使用python2.7。在

我不确定是否有其他的包，或者是否有一个在python中使用pdf的最佳实践，因为我得到的所有信息都是几年前的，而且大多数信息都是相反的。当然，我可以用最好的方案来解决我的问题：）

谢谢你的建议！在

Tags：文档 https io 文本信息内容 pdf 方案

1条回答

网友

1楼 · 发布于 2024-06-28 11:15:09

第一个选项：PyPDF2

首先在cmd中运行这个命令来安装PyPDF2：（可能比您已经尝试过的PyPDF3工作得更好）

pip install PyPDF2

然后使用以下代码从pdf文件中提取文本：

^{2}$

第二个选项：Textract

在cmd中运行这个来安装textract

pip install textract

然后使用以下代码阅读pdf：

import textract
text = textract.process('path/to/pdf/file', method='pdfminer')

祝你好运！在

相关问题更多 >

编程相关推荐

热门问题

热门文章