pdfminer提取LTFigure对象后面的文本

2条回答

网友

1楼 · 编辑于 2024-09-19 23:26:57

好的，我终于想出了解决办法。这很简单-可以像迭代LTTextBox对象一样迭代LTFigure对象

interpreter.process_page(page)
layout = device.get_result()

for lobj in layout:
    if isinstance(lobj, LTTextBox):
        for element in lobj:
            if isinstance(element, LTTextLine):
                text = element.get_text()
                print(text)

    elif isinstance(lobj, LTFigure):
        for element in figure:
            if isinstance(element, LTChar):
                text = element.get_text()
                print(text)

请注意，正确的方法（确保解析器读取文档中的所有内容）是递归地迭代pdfminer对象，如下所示：How does one obtain the location of text in a PDF with PDFMiner?

网友

2楼 · 编辑于 2024-09-19 23:26:57

考虑到您也考虑其他库，我建议使用PopdUTUL的pdftohtml将PDF转换成XML：

!apt-get install -y poppler-utils
!pdftohtml -c -hidden -xml document.pdf output.xml

它将输出一个xml文件，其中包含文本以及框的顶部、左侧、宽度和高度值。pdfminer不认识的文本没有问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

pdfminer提取LTFigure对象后面的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >