从pdf中提取文本忽略裁剪的内容

2024-09-30 16:31:33 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图从一个被裁剪的pdf文件中提取文本。一、它有一个定义的cropbox，它只显示页面的一部分。在

问题是被裁剪的部分仍然存在于pdf文件中，只是不可见。在

我试过PyPDF2，pdfquery和pdfminer。他们都阅读整个内容，包括裁剪部分。在

PyPDF2允许我使用以下方法访问cropbox的维度：

pdfFileObj=open(path,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pdfReader.getPage(0).cropBox

但我不知道我能用它做什么。这些文件正在使用apachepdfbox在java中裁剪。我宁愿只读取python中文件的未裁剪部分，但如果这是唯一的解决方案，我也可以修改java代码裁剪文件。在

感谢任何帮助。在

Tags：文件方法文本内容定义 pdf 页面 java

0条回答

目前没有回答