pdf图像的文本提取

1条回答

网友

1楼 · 发布于 2024-10-16 20:45:52

既然你没有具体说明，我就假设你同意。你知道吗

主要的问题是在获得OCR字符串之后，您将无法确定空格是单词之间的空格，还是列之间的空格。你知道吗

要解决这个问题，裁剪每一列上的图像，然后分别对每一列进行OCR，这样就应该得到3个字符串，每一列对应一个字符串。你知道吗

按'\n'分割每个字符串，您应该有3个数组，每个列中包含行

比较数组的大小，如果3个数组中的任何一个大小不同，则表示提取失败，您应该重试/清理映像。你知道吗

迭代第二个和/或第三个数组上的元素，查找仅为“\n”的元素，假设此处不能有空字段，如果一行仅为“\n”，则意味着第一列上的字段将使用2行或更多行，因此请删除第一个和第二个数组上的此元素，并将此元素与第一个数组上的下一个元素合并。你知道吗

如果所有三个数组的元素数相同，并且您加入了使用多行的条目，那么您就可以知道关系是由数组的位置设置的。你知道吗