pdf图像的文本提取

2024-10-16 20:45:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个图像文件,我想从给定的图像中提取文本,我尝试了各种OCR引擎,但我无法找到左侧实体和右侧实体之间的关系,因为OCR引擎只是提取文本,而没有实体之间的关系。 例如交易(公司借款),账户#1:现金账户#2:应付贷款

我尝试过使用各种OCR引擎和PyPDF2和pdftotextI have attached an image file for which I am trying extract text and trying to find the relationship between the left entity and right side entity 进行文本提取


Tags: andthe图像引擎文本实体关系图像文件
1条回答
网友
1楼 · 发布于 2024-10-16 20:45:52
  • 所有的图像都是这样分析的吗?你知道吗
  • 这个例子是否反映了你将要分析的图像的真实性?你知道吗
  • 每列的限制是否总是在同一位置?你知道吗

既然你没有具体说明,我就假设你同意。你知道吗

主要的问题是在获得OCR字符串之后,您将无法确定空格是单词之间的空格,还是列之间的空格。你知道吗

要解决这个问题,裁剪每一列上的图像,然后分别对每一列进行OCR,这样就应该得到3个字符串,每一列对应一个字符串。你知道吗

按'\n'分割每个字符串,您应该有3个数组,每个列中包含行

比较数组的大小,如果3个数组中的任何一个大小不同,则表示提取失败,您应该重试/清理映像。你知道吗

迭代第二个和/或第三个数组上的元素,查找仅为“\n”的元素,假设此处不能有空字段,如果一行仅为“\n”,则意味着第一列上的字段将使用2行或更多行,因此请删除第一个和第二个数组上的此元素,并将此元素与第一个数组上的下一个元素合并。你知道吗

如果所有三个数组的元素数相同,并且您加入了使用多行的条目,那么您就可以知道关系是由数组的位置设置的。你知道吗

相关问题 更多 >