如何使用pdfmin从python中的pdf提取字段

2条回答

网友

1楼 · 编辑于 2024-09-26 22:45:28

尝试使用tika软件包：

from tika import parser

raw = parser.from_file('sample.pdf')
print(raw['content'])

网友

2楼 · 编辑于 2024-09-26 22:45:28

首先，使用tika将PDF转换为文本

import re
import sys
!{sys.executable} -m pip install tika
from tika import parser
from io import StringIO
from itertools import islice 

file = 'filename with directory'
parsedPDF = parser.from_file(file) # Parse data from file
text = parsedPDF['content'] # Get files text content

现在使用regex提取所需的字段。你可以在网上找到大量的regex教程。如果您在实现相同的功能时遇到任何问题，请在此处询问

编程相关推荐

java为什么在ng构建之后使用404？
java Maven原型“quickstart”无法扩展其POM
java Arduino端口卡在满功率状态
java如何确保在参数化构造函数失败时不调用默认构造函数？
java检测Blackberry中的切换失败
java如何将安卓库（作为Angle）链接到Eclipse项目？
java压缩图片，但获取“未知压缩方法”
java无法对应该初始化的模拟实例进行测试
将现有eclipse项目导出到war文件时，java“模块名无效”
java如何防止AppletClassLoader在查找类/其他资源时击中服务器？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pdfmin从python中的pdf提取字段

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >