以pdf(Java)格式从扫描发票中提取发票编号、发票日期等 1 周,3 日 Questions & Answers 1554 我不想用Java提取发票号、发票日期、税额和发票价格。发票将被扫描并保存为PDF格式。有人知道这有一个相对简单的可能性吗
# 1 楼答案 这是完全可能的。根据你愿意付出多少努力,以及你所处的环境,你至少可以做两件事: 使用iText7 Core从pdf文件中提取文本,然后使用正则表达式在文本中查找内容 使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档相匹配。如果匹配成功,pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。从xml数据源提取数据应该很简单 http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates
# 1 楼答案
这是完全可能的。根据你愿意付出多少努力,以及你所处的环境,你至少可以做两件事:
使用iText7 Core从pdf文件中提取文本,然后使用正则表达式在文本中查找内容
使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档相匹配。如果匹配成功,pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。从xml数据源提取数据应该很简单
http://developers.itextpdf.com/content/best-itext-questions-stackoverview/content-parsing-extraction-and-redaction-text/itext7-how-read-text-specific-position
http://itextpdf.com/blog/pdf2data-extract-information-invoices-and-templates