如何使用PyPDF2识别PDF页面是否包含文本？

2024-09-28 03:21:39 发布

您现在位置：Python中文网/ 问答频道 /正文

3155

网友

男 | 程序猿一只，喜欢编程写python代码。

最初的任务是将一个PDF裁剪成几个独立的部分。我已经调整了一些参数来完成任务，但是有时候，我的croping方法将导致一个“空白页”，看起来就像，它有一个文本（使用extractText方法）。所以我想知道如何过滤上面提到的“空白页”。在

以下是我低声吟唱的一部分：

original = 'input.pdf'
target = 'output.pdf'
pdf = PdfFileReader(open(original, 'rb'))
for page in pdf.pages:
    for i in range(4):
        new_page = copy.copy(page)
        if i == 0:
            # TOP LEFT
            new_page.mediaBox.upperRight = (285.5, 780)
            new_page.mediaBox.lowerLeft = (20, 570)
        elif i == 1:
            # BOTTOM LEFT
            new_page.mediaBox.upperRight = (285.5, 400)
            new_page.mediaBox.lowerLeft = (20, 190)
        elif i == 2:
            # TOP RIGHT
            new_page.mediaBox.upperRight = (572, 780)
            new_page.mediaBox.lowerLeft = (306.5, 570)
        elif i == 3:
            # BOTTOM RIGHT
            new_page.mediaBox.upperRight = (572, 400)
            new_page.mediaBox.lowerLeft = (306.5, 190)
        out.addPage(new_page)


with open(target, 'wb') as f:
    out.write(f)

以下是低声PDF:https://drive.google.com/open?id=0BxL6yv_HDnNYMEt0OF9RU1BaYWM

Tags：方法 target new for pdf page open original

0条回答

目前没有回答

如何使用PyPDF2识别PDF页面是否包含文本？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用PyPDF2识别PDF页面是否包含文本？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >