2024-09-30 12:29:25 发布
网友
我想从OCR数据中提取表信息,我有原始文本和它的文本。 我尝试了pytesseract,但找不到实际的实现。在
这是一张图片:https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l
我试过了:https://github.com/WZBSocialScienceCenter/pdftabextract
这种方法对我一点也不管用。在
我想从OCR数据中得到这个表的表格结构,以便进一步处理。在
pdftabextract is not an OCR. It requires scanned pages with OCR information, i.e. a "sandwich PDF" that contains both the scanned images and the recognized text. You need software like tesseract or ABBYY Finereader for OCR.
请尝试tesseract,它的实现相对容易一些。在
请尝试tesseract,它的实现相对容易一些。在
相关问题 更多 >
编程相关推荐