在css上用python解析PDF失败

pdf = pdfquery.PDFQuery("tests/samples/IRS_1040A.pdf") pdf.extract( [ ('with_parent','LTPage[pageid=1]'), ('with_formatter', 'text'), ('last_name', 'LTTextLineHorizontal:in_bbox("315,680,395,700")'), ('spouse', 'LTTextLineHorizontal:in_bbox("170,650,220,680")'), ('with_parent','LTPage[pageid=2]'), ('oath', 'LTTextLineHorizontal:contains("perjury")', lambda match: match.text()[:30]+"..."), ('year', 'LTTextLineHorizontal:contains("Form 1040A (")', lambda match: int(match.text()[-5:-1])) ])

1条回答

网友

1楼 · 发布于 2024-09-30 16:22:00

我查看了这些示例，似乎缺少了一些引号（在xpath表达式LTPage[pageid="1"]和{}中）。有了引号就没有错误信息了。在

pdf.extract( [
 ('with_parent','LTPage[pageid="1"]'),
 ('with_formatter', 'text'),
 ('last_name', 'LTTextLineHorizontal:in_bbox("315,680,395,700")'),
 ('spouse', 'LTTextLineHorizontal:in_bbox("170,650,220,680")'),
 ('with_parent','LTPage[pageid="2"]'),
 ('oath', 'LTTextLineHorizontal:contains("perjury")', lambda match: match.text()[:30]+"..."),
 ('year', 'LTTextLineHorizontal:contains("Form 1040A (")', lambda match: int(match.text()[-5:-1]))
])

相关问题更多 >

编程相关推荐

热门问题

热门文章