Tesseract训练

首页 > 代码库 > Tesseract训练

2024-09-08 06:09:30 215人阅读

最近在用Tesseract做一个图片识别的小应用，目标图像只有数字和英文字母，在实际使用过程中发现个别数识别错误，因此不得不研究学习Tesseract的训练。

http://www.cnblogs.com/cnlian/p/5765871.html 该链接是重要的参考资料，然则按照文章操作，第二步对box文件进行修正就出现问题：jTessBoxEditor无法正确识别图像。

经过阅读jTessBoxEditor的帮助文档，问题得以解决。其中有一段提到关键点：

You will need to provide the TIFF/Box files as input to the editor. Images to be used in training should be of 300 DPI and 1 bpp (bit per pixel) black&white or 8 bpp grayscale, uncompressed TIFF format;

这段话大意就是要求tiff文件的分辨率为300DPI，1比特黑白图像或8比特的灰度等级，无压缩。用photoshop重新处理图片，成功实现了识别。（这点在上诉的文章没有提及）

技术分享

然后就可以对图片进行识别的修正了。

其次，box文件调整完后，可以不用编写批处理文件，jTessBoxEditor已经实现了自动化处理：

技术分享

Tesseract训练

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > Tesseract训练

Tesseract训练

看完仍有疑问？有类似问题直接问程序猿