使用python从PDF获取目录

2024-09-28 01:29:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试从PDF中获取目录。我使用PyMuPDF就是为了这个目的。但它仅在PDF包含书签时提取ToC。否则,它只会导致一个空列表

def get_Table_Of_Contents(doc):
    toc = doc.getToC()
    return toc
toc= get_Table_Of_Contents(file)
toc

Tags: of目的目录列表getdocpdfdef
2条回答

使用pdf html转换器将pdf转换为html。您可以使用类似beautifulsoup的解析器解析html以提取您想要的任何数据

通常TOC表示为页面上的常规文本

尝试pdfreader提取文本和/或PDF“标记”

以下是从页面中提取上述所有内容的示例代码:

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(your_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

# navigate to TOC
viewer.navigate(toc_page_number)

viewer.render()
pdf_markdown = viewer.canvas.text_content
plain_text = "".join(viewer.canvas.strings)

然后可以将plain_textpdf_markdown解析为常规字符串

相关问题 更多 >

    热门问题