从pdf报表中提取财务报表

2024-06-26 10:42:08 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直试图将嵌入在年报中的财务报表以pdf格式提取出来,并使用python以excel/CSV格式导出,但我遇到了一些问题: 1具体的财务报表可以在报告的任何一页上。如果我要处理成百上千的PDF文件,我必须指定页码,这需要很多时间。有没有办法让刮刀知道确切的陈述在哪里? 2有些报告跨越多个页面,而在抓取pdf后的最终结果不是我想要的 三。不同的年度报告有不同的财务报表格式。有没有办法处理这些文件并将其更改为特定的标准格式?在

如果有人做过这样的事情,并且能分享一些例子,我也会很感激。在

Ps我正在使用python并使用tabla和Camelot


Tags: 文件csvpdf格式报告时间页面excel
1条回答
网友
1楼 · 发布于 2024-06-26 10:42:08

我有一个类似的例子,问题是从PDF中提取特定的表单信息(姓名、出生日期等等)。我使用tesseract open source software和{}对文件执行OCR。由于我不需要整个PDF文件,而是需要其中的特定信息,所以我设计了一种算法来查找这些信息:在我的例子中,我使用了简单的启发式方法(特定字段、特定行号和其他一些特定于域的东西),但是您也可以使用机器学习方法,训练一个能够找到所需文本部分的分类器。您也可以使用特定领域的启发式方法,因为我确信财务报表具有特殊的词汇表或一些文本标记来指示其开始/结束。 我希望我至少能给你一些解决这个问题的办法

注:使用tesseract,您还可以处理多页PDF。机器学习方法需要一些样本来学习财务报表的良好概括。在

相关问题 更多 >