使用python从PDF获取目录 - 问答 - Python中文网

使用python从PDF获取目录

2024-09-28 01:29:15 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试从PDF中获取目录。我使用PyMuPDF就是为了这个目的。但它仅在PDF包含书签时提取ToC。否则，它只会导致一个空列表

def get_Table_Of_Contents(doc):
    toc = doc.getToC()
    return toc
toc= get_Table_Of_Contents(file)
toc

Tags： of 目的目录列表 get doc pdf def

2条回答

网友

1楼 · 编辑于 2024-09-28 01:29:15

使用pdf html转换器将pdf转换为html。您可以使用类似beautifulsoup的解析器解析html以提取您想要的任何数据

网友

2楼 · 编辑于 2024-09-28 01:29:15

通常TOC表示为页面上的常规文本

尝试pdfreader提取文本和/或PDF“标记”

以下是从页面中提取上述所有内容的示例代码：

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(your_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

# navigate to TOC
viewer.navigate(toc_page_number)

viewer.render()
pdf_markdown = viewer.canvas.text_content
plain_text = "".join(viewer.canvas.strings)

然后可以将plain_text或pdf_markdown解析为常规字符串

相关问题更多 >

编程相关推荐

热门问题

热门文章