(Python)PDFtk的替代品?

2024-10-01 11:38:42 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在使用pythonpdftk作为我正在进行的PDF文本提取项目的一部分。有人知道我能用的文本提取库吗?在

我用的是Python,但现在什么都有可能。在

我也在寻找替代品-基本上任何东西都可以同等或更好地运行。我的一些pdf(没有加密,等等)只是没有被PDFTK提取器识别,而且我没有得到我想要的进展。在

谢谢你的时间。在


Tags: 项目文本替代品pdf时间pdftkpythonpdftk
1条回答
网友
1楼 · 发布于 2024-10-01 11:38:42

试试PDFMiner。这是一个支持很多功能的PDF库。基本上,它还有一个名为pdf2的工具文本.py他们提供了一个从加密PDF文件提取内容到纯文本文档的示例。参见pdf2章节文本.py在页面上。在

还支持CJK语言(取决于某些依赖项的安装)

也支持中日韩字符

相关问题 更多 >