如何使用pdfmin从python中的pdf提取字段

2024-09-26 22:45:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个pdf表单,我需要提取电子邮件id,人名和其他信息,如技能,城市等。如何使用pdfminer3。enter image description here 请查看附件中的pdf样本


Tags: 信息id表单附件pdf电子邮件技能pdfminer3
2条回答

尝试使用tika软件包:

from tika import parser

raw = parser.from_file('sample.pdf')
print(raw['content'])

首先,使用tika将PDF转换为文本

import re
import sys
!{sys.executable} -m pip install tika
from tika import parser
from io import StringIO
from itertools import islice 

file = 'filename with directory'
parsedPDF = parser.from_file(file) # Parse data from file
text = parsedPDF['content'] # Get files text content

现在使用regex提取所需的字段。 你可以在网上找到大量的regex教程。如果您在实现相同的功能时遇到任何问题,请在此处询问

相关问题 更多 >

    热门问题