Tesseract (Open Source OCR)
Table of Contents
1. Tesseract 简介
Tesseract 是开源 OCR(Optical Character Recognition)引擎。
Tesseract 由 HP 实验室于 1985 年开始研发,至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一。然而,HP 不久便决定放弃 OCR 业务,Tesseract 也从此尘封。数年之后,Tesseract 已经开源,github 地址为 https://github.com/tesseract-ocr/tesseract。
2. 中文识别基本使用
安装 tesseract
后,使用 --list-langs
选项可查看其支持的语言:
$ tesseract --list-langs List of available languages (2): eng osd
中文并不在列,从 https://github.com/tesseract-ocr/tessdata 下载中文训练数据:chi_sim.traineddata,把相应的语言训练数据放入到安装目录的“tessdata”子目录中。这时可发现 Tesseract 已支持中文识别:
$ tesseract --list-langs List of available languages (3): chi_sim eng osd
假设有图 1 所示图片。
Figure 1: 测试图片
下面对其进行中文识别:
$ tesseract tesseract_test.png -l chi_sim tesseract_test Tesseract Open Source OCR Engine v3.05.01 with Leptonica
识别后的文字保存在文件 tesseract_test.txt 中:
$ cat tesseract_test.txt 想知道自己的中文水平女口何吗, 这里有一份测试题。 谓选择你觉得最正确的答案 不要查字典, 也不要求助他人。 1oo分 为满分, 看你能得多少分?
从结果中可知,中文训练数据 chi_sim.traineddata 表现得不是很好,在上面例子中把“如何”被错误地识别为了“女口何”,“请”字被错误地识别为了“谓”。