擅长:python、mysql、java
<p>首先,使用tika将PDF转换为文本</p>
<pre><code>import re
import sys
!{sys.executable} -m pip install tika
from tika import parser
from io import StringIO
from itertools import islice
file = 'filename with directory'
parsedPDF = parser.from_file(file) # Parse data from file
text = parsedPDF['content'] # Get files text content
</code></pre>
<p>现在使用regex提取所需的字段。
你可以在网上找到大量的regex教程。如果您在实现相同的功能时遇到任何问题,请在此处询问</p>