2024-09-28 01:29:15 发布
网友
我正在尝试从PDF中获取目录。我使用PyMuPDF就是为了这个目的。但它仅在PDF包含书签时提取ToC。否则,它只会导致一个空列表
def get_Table_Of_Contents(doc): toc = doc.getToC() return toc toc= get_Table_Of_Contents(file) toc
使用pdf html转换器将pdf转换为html。您可以使用类似beautifulsoup的解析器解析html以提取您想要的任何数据
通常TOC表示为页面上的常规文本
尝试pdfreader提取文本和/或PDF“标记”
以下是从页面中提取上述所有内容的示例代码:
from pdfreader import SimplePDFViewer, PageDoesNotExist fd = open(your_pdf_file_name, "rb") viewer = SimplePDFViewer(fd) # navigate to TOC viewer.navigate(toc_page_number) viewer.render() pdf_markdown = viewer.canvas.text_content plain_text = "".join(viewer.canvas.strings)
然后可以将plain_text或pdf_markdown解析为常规字符串
plain_text
pdf_markdown
使用pdf html转换器将pdf转换为html。您可以使用类似beautifulsoup的解析器解析html以提取您想要的任何数据
通常TOC表示为页面上的常规文本
尝试pdfreader提取文本和/或PDF“标记”
以下是从页面中提取上述所有内容的示例代码:
然后可以将
plain_text
或pdf_markdown
解析为常规字符串相关问题 更多 >
编程相关推荐