擅长:python、mysql、java
<P>考虑到您也考虑其他库,我建议使用PopdUTUL的<a href="https://manpages.debian.org/testing/poppler-utils/pdftohtml.1.en.html" rel="nofollow noreferrer">pdftohtml</a>将PDF转换成XML:</P>
<pre><code>!apt-get install -y poppler-utils
!pdftohtml -c -hidden -xml document.pdf output.xml
</code></pre>
<p>它将输出一个xml文件,其中包含文本以及框的顶部、左侧、宽度和高度值。pdfminer不认识的文本没有问题</p>