我正在尝试使用python从图像中准确地提取文本。在
这是我在这个场景中使用的图像:
这是我的python文件:
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = r'C:\Users\test\AppData\Roaming\Python\Python37\site-packages\tesseract.exe'
img=Image.open('C:/Users/test/Desktop/Everything else/work/Almonds.jpg')
text = pytesseract.image_to_string(img, lang = 'eng')
print(text)
这是我在命令提示符下运行python文件时的输出:
^{pr2}$如你所见,并非所有的文本都拼写正确。是否有任何提高文本输出准确性的建议?在
额外
这是一个关于我要达到的目标的想法,与问题无关,但是给你一个我想要达到的目标的想法。在
我有多个产品的图像文件,我将在其中与excel表格进行比较。在
Excel表格的格式如下(1个示例数据):
Product Code: 0001
Product Desc: Californian Whole Almonds
Ingredients: Almonds: [Nuts]
Allergy Advice: True
etc...
然后我将编写一个脚本来检测图像文件中的文本,将其与excel表进行比较,并分析每个部分是否匹配,给出“True”或“False”的输出
在将图像放入Pytesseract之前,对图像进行预处理以平滑/去除噪声会有所帮助。也许去除水平线/垂直线可以提高检测效果
相关问题 更多 >
编程相关推荐