基于Eclipse下的python图像识别菜鸟版（利用pytesseract以及tesseract）

佚名 6年前 (2018-05-18) 人工智能 1681人围观抢沙发百度已收录

这是我注册博客后写的第一篇博客，希望对有相关问题的朋友有帮助。

在图像识别前，首先我们要做好准备工作。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

运行环境：windows7及以上版本

运行所需软件：（有基础的可以跳过这一段）eclipse，pydev，anaconda2，tesseract-ocr（图像识别引擎），pytesseract组件，PIL组件

操作：安装eclipse，在eclipse的help菜单栏中选择Eclipse Marketplace搜索pydev，安装pydev，下载anacondea2，下载安装tesseract（如果安装过程中有错请直接点跳过，因为那是选择的语言包无法下载的意思，因为这个软件的是国外公开的，相关资源的下载需要越狱）。

安装完上述软件后，在cmd即命令指示窗口中打开到anaconda2的Scripts下输入 pip install PIL，等安装好后再输入pip install pytesseract。

记得要在项目中添加上你要识别的英文图片（建议是像我给的这样的图片），名字随意吧，不过要记得改代码呦！图片展示：

接下来就是运行程序了以下是运行代码截图及结果。

这是识别的结果不过识别准确率非常差，而且目前只能识别英文，要识别中文的话需要相关语言包，具体如何操作我也不太懂（有用中文识别成功的朋友请不吝赐教）

上述是我在eclipse中运行的结果，当然不是直接运行代码就出来的了，是经历了一个历时极长且极度痛苦的纠错过程。

如果直接运行的结果是这样的，额，好吧调整过一次后不会再再出现那个错误了。

不过我大概还记得错误是这样的，

首先eclipse会报错在text=pytesseract.image_to_string(lena)这一行具体提示啥我忘了，

中间好像是提示pytesseract.py中某一行出错

最后显示win 2[error]就是这个错

我在查了多个网站后，找到了错误原因。具体操作是在pytesseract中修改

tesseract_cmd = 'tesseract.exe'中的tesseract.exe为tesseract在你本机上的路径载在前面加r如下图所示：

1 # CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
2 tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
3 img_mode = 'RGB'

这样代码就能正常运行了。

其实也可以直接在tesseract中使用的

打开命令指示符

输入如下图所示的代码就行了，结果会在图片那一目录显示