首页 > 代码库 > mac下安装tesseract-OCR

mac下安装tesseract-OCR

1、先下载需要的软件包

       OCR工具:  Tesseract-OCR3.0.1  source code    tesseract-ocr-3.01.eng.tar.gz 破验证码用英文就够了。

       图像处理工具:  Leptonica  1.68

       png识别工具:  libpng

       jpeg识别工具 :libjpeg

       tif识别工具:   libtiff

2、安装步骤

      1-  安装libpng,libjpeg,libtiff

以下是命令:

./configure  

make  

sudo make install   

    2-安装Leptionica

以下是命令:

./configure  

make  

sudo make install  

make的时候如果发现错误,提示

  pngio.c:119: error: ‘Z_DEFAULT_COMPRESSION’ undeclared here (not in a function)

   去wiki上搜了一把发现是 pngio.c这个文件有个BUG,在MAC下无法找到zlib1g包修改Leptionica/src/pngio.c在  #include "png.h"后插入一下代码即可

以下为命令代码:

#ifdef HAVE_LIBZ  

#include "zlib.h"  

#endif  

 

    3- 安装Tesseract-OCR

    以下为命令

./autogen.sh  

./configure  

make  

sudo make install

 

   如果发现错误,可以改成以下命令:

./autogen.sh
export LIBLEPT_HEADERSDIR=/usr/local/include
./configure --with-extra-libraries=/usr/local/lib
sudo make install

    4- 安装语言包

    解压tesseract-ocr-3.01.eng.tar.gz到/usr/local/share/tesseract就可以了。

 

3、try ocr

  1. MacBook-Pro:work my$ tesseract pin.jpg  out -l eng  
  2. Tesseract Open Source OCR Engine v3.01 with Leptonica  
  3. MacBook-Pro:work my$ more out.txt   
  4. Bvcs

至此,已经tesseract已经可以正常工作了。

剩下我们写段代码去通过命令行调用就可以实现图片的识别了。

 

tesseract自己提供的训练好的语言包不能保证百分百识别出验证码图片,这个可以通过抓取一定量的验证码来进行

训练,以更加精准的识别,官方有文档和工具如何进行

http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

 

转自(略有修改):http://holybless.iteye.com/blog/1338717

 

mac下安装tesseract-OCR