从pdf报表中提取财务报表

1条回答

网友

1楼 · 发布于 2024-06-26 10:42:08

我有一个类似的例子，问题是从PDF中提取特定的表单信息（姓名、出生日期等等）。我使用tesseract open source software和{}对文件执行OCR。由于我不需要整个PDF文件，而是需要其中的特定信息，所以我设计了一种算法来查找这些信息：在我的例子中，我使用了简单的启发式方法（特定字段、特定行号和其他一些特定于域的东西），但是您也可以使用机器学习方法，训练一个能够找到所需文本部分的分类器。您也可以使用特定领域的启发式方法，因为我确信财务报表具有特殊的词汇表或一些文本标记来指示其开始/结束。我希望我至少能给你一些解决这个问题的办法

注：使用tesseract，您还可以处理多页PDF。机器学习方法需要一些样本来学习财务报表的良好概括。在

编程相关推荐

ws-consumer服务地址中的java动态属性
java如何比较整数列表，然后按升序排序？
javascript我正在使用java脚本调用一个函数，但它没有调用代码下面的方法，也没有调用secretitnames（）函数
在文本窗格中多次使用Java insertIcon图标
JavaMSAL安卓。AuthenticationActivity完成，但用于身份验证请求的线程池线程仍处于等待状态
if语句中的java多范围比较
java toString（）表示输出
java如何在jcstrest测试中生成指令重新排序
java我怎样才能运行它？
web应用程序中使用Hibernate和Spring的java问题

相关问题更多 >

编程相关推荐

热门问题

热门文章

从pdf报表中提取财务报表

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >