使用python正则表达式从pdf中提取特定数据

import pypdf2, re pdfObj = open(r'D:\FreeLancing\tax_2019 - PDF to extract the information from.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfObj) pdfReader.numPages pdfPageObj = pdfReader.getPage(0) text = pdfPageObj.extractText() re.sub(r'\s\n|\s\n.*|\n', ' ', text, flags=re.DOTALL) re.split(r'^\d{6}.*\d{6}$', text, flags=re.I | re.DOTALL)

1条回答

网友

1楼 · 发布于 2024-09-27 21:28:15

pattern = re.compile(r"^\s*\d{6}\b\s+(?P<id>.*?)\s*PROPERTY\sADDRESS\s*:\s*(?P<address>.*?)\s*TAXES\sOWED\sARE\s+(?P<taxes_owed>.*?)\s*(?P<legal_description>Ward.*?)\.\s*$")
for company_info in re.split(r'(?<=\.)\s*(?=\d{6}\b)', text) :
    src = pattern.search(company_info)
    for group_name in ["id", "address", "taxes_owed", "legal_description"] :
    print(src.group(group_name))

有关正则表达式的解释，请参见https://regex101.com/r/OtHH5l/1

编程相关推荐

JavaSpringBootHibernate5忽略@Table和@Column
java readLine是如何工作的？
java除了Oracle的JVM（windows）之外，还有什么BSD许可的替代方案吗？
javascript处理程序执行导致异常：所需的MultipartFile参数“file”不存在
java如何检查url是否与标识符匹配？
java在对象创建之后实现一个接口
java安卓：如何将github库放入项目中
java如何制作自定义文本组件？
如何在java中更新属性文件
java Hibernate持久映射

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python正则表达式从pdf中提取特定数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >