Tesseract (Open Source OCR)

Table of Contents

1 Tesseract简介

Tesseract是开源OCR(Optical Character Recognition)引擎。

Tesseract由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。数年之后,Tesseract已经开源,github地址为 https://github.com/tesseract-ocr/tesseract

2 中文识别基本使用

安装 tesseract 后,使用 --list-langs 选项可查看其支持的语言:

$ tesseract --list-langs
List of available languages (2):
eng
osd

中文并不在列,从 https://github.com/tesseract-ocr/tessdata 下载中文训练数据:chi_sim.traineddata,把相应的语言训练数据放入到安装目录的“tessdata”子目录中。这时可发现Tesseract已支持中文识别:

$ tesseract --list-langs
List of available languages (3):
chi_sim
eng
osd

假设有图 1 所示图片。

tesseract_test.png

Figure 1: 测试图片

下面对其进行中文识别:

$ tesseract tesseract_test.png -l chi_sim tesseract_test
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

识别后的文字保存在文件tesseract_test.txt中:

$ cat tesseract_test.txt
想知道自己的中文水平女口何吗, 这里有一份测试题。

谓选择你觉得最正确的答案 不要查字典, 也不要求助他人。 1oo分
为满分, 看你能得多少分?

从结果中可知,中文训练数据chi_sim.traineddata表现得不是很好,在上面例子中把“如何”被错误地识别为了“女口何”,“请”字被错误地识别为了“谓”。


Author: cig01

Created: <2018-04-25 Wed 00:00>

Last updated: <2018-07-25 Wed 00:20>

Creator: Emacs 25.3.1 (Org mode 9.1.4)