Python将PDF按内容拆分为多个文件

2024-10-01 17:31:19 发布

您现在位置:Python中文网/ 问答频道 /正文

假设我有一个300页的PDF文件。它实际上有100个表单(每个表单总是3页)。在表单的第一页上,有一个文本值,它将决定它将转到哪个输出文件。该值以字母“G”和3个数值(即“G100”、“G201”等)开头,这里开始出现问题。PDF中的表格混在一起了。我将展示我的意思:

1st page: G100
4th page: G201
7th page: G100
10th page: G256
...
298th page: G100

基于此,我应该创建一个输出:“G100.pdf”,其中将包含第1-3、7-9、298-300页。每种独特的形式都是一样的。我不知道将有多少类型,它们将如何命名(除了所描述的模式之外),以及它们将有多少页面范围

有没有办法用python来实现这一点?我见过一些使用PyPDF2拆分页面的方法,但我不知道如何在具有非连续数据的大PDF中高效地完成此操作


Tags: 文件文本表单类型pdf字母page页面

热门问题