擅长:python、mysql、java
<p>经过一番挖掘,我找到了更好的解决办法。我没有使用pdfminer来打开PDF,而是使用PyPDF2。不知何故,它可以读取任何PDF而不考虑编码,它有一个功能,可以自动将可填充的空间变成一个适当的字典。结果是生成更精细、更清晰的代码:</p>
<pre class="lang-py prettyprint-override"><code>from PyPDF2 import PdfFileReader
infile = "Edited_CS.pdf"
pdf_reader = PdfFileReader(open(infile, "rb"))
dictionary = pdf_reader.getFormTextFields()
for g in list(dictionary.items()):
print(g)
</code></pre>
<p>不管怎样,谢谢你的回答!:)</p>