首页 > 代码库 > Tesseract处理背景渐变的图片
Tesseract处理背景渐变的图片
在Tesseract处理背景渐变图片不太理想的情况下, 可以利用Pillow库, 创建一个阈值过滤器来去掉渐变的背景色, 只把文字留下来, 从而让图片更清晰, 便于Tesseract读取:
1 from PIL import Image 2 import subprocess 3 4 def cleanFile(filePath, newFilePath): 5 image = Image.open(filePath) 6 7 # 对图片进行阈值过滤, 然后保存 8 image = image.point(lambda x: 0 if x<143 else 255) 9 image.save(newFilePath) 10 11 # 调用系统的tesseract命令对图片进行ocr识别 12 # subprocess.call(["tesseract", newFilePath, "output"]) //报错:文件找不到 13 subprocess.call(["C:/Program Files (x86)/Tesseract-OCR/tesseract", newFilePath, "output"]) 14 15 # 打开文件读取结果 16 outputFile = open("output.txt", ‘r‘) 17 print(outputFile.read()) 18 outputFile.close() 19 20 cleanFile("text_2.png", "text_2_clean.png")
以下两张图片分别为text_2.png和text_2_clean.png
Tesseract处理背景渐变的图片
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。