擅长:python、mysql、java
<p>我使用lib<code>PyPDF2</code>从PDF中提取文本。在这里,我做了一个简单的源代码。
它将按页面提取内容</p>
<pre><code>import PyPDF2
with open('example.pdf', 'rb') as pdfFileObj:
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
for i in range(0, pdfReader.numPages):
print("Page: ", i)
pageObj = pdfReader.getPage(i)
print(pageObj.extractText())
</code></pre>
<p>图像结果:</p>
<p><a href="https://i.stack.imgur.com/tPMvl.jpg" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/tPMvl.jpg" alt="Result"/></a></p>
<p>如果您有任何问题,请检查并回复我</p>