我正在尝试使用python准备EPC证书中的能效等级。EPC证书通常采用PDF格式。我已经将PDF转换为图像,并使用PyteSeract从图像中获取文本。然而,我没有得到预期的结果
预期产出: 电流额定值:79,潜在额定值:79
到目前为止,我所尝试的:
from pdf2image import convert_from_path
import pytesseract
from PIL import Image
pages = convert_from_path(r'my_file.pdf', 500)
img =pages[0].save(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg', 'JPEG')
text = pytesseract.image_to_string(Image.open(r'F:\Freelancer\EPC rating\fwdepcs\out.jpg'))
然而,文本并不能捕获79
我还尝试了cv2模式匹配和形状检测,但由于其他原因,这些都不起作用
您说您已将此pdf转换为图像文件
使用PIL(.crop())或opencv裁剪图片。并按如下方式进行裁剪:
使用PIL
Image.convert("1")
,也许tesseract可以捕捉到这个数字。 如果没有,我认为您可以使用jTessBoxEditor来培训tesseract相关问题 更多 >
编程相关推荐