Tesseract (Open Source OCR)

Table of Contents

1. Tesseract 简介

Tesseract 是开源 OCR(Optical Character Recognition)引擎。

Tesseract 由 HP 实验室于 1985 年开始研发,至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一。然而,HP 不久便决定放弃 OCR 业务,Tesseract 也从此尘封。数年之后,Tesseract 已经开源,github 地址为 https://github.com/tesseract-ocr/tesseract

2. 中文识别基本使用

安装 tesseract 后,使用 --list-langs 选项可查看其支持的语言:

$ tesseract --list-langs
List of available languages (2):
eng
osd

中文并不在列,从 https://github.com/tesseract-ocr/tessdata 下载中文训练数据:chi_sim.traineddata,把相应的语言训练数据放入到安装目录的“tessdata”子目录中。这时可发现 Tesseract 已支持中文识别:

$ tesseract --list-langs
List of available languages (3):
chi_sim
eng
osd

假设有图 1 所示图片。

tesseract_test.png

Figure 1: 测试图片

下面对其进行中文识别:

$ tesseract tesseract_test.png -l chi_sim tesseract_test
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

识别后的文字保存在文件 tesseract_test.txt 中:

$ cat tesseract_test.txt
想知道自己的中文水平女口何吗, 这里有一份测试题。

谓选择你觉得最正确的答案 不要查字典, 也不要求助他人。 1oo分
为满分, 看你能得多少分?

从结果中可知,中文训练数据 chi_sim.traineddata 表现得不是很好,在上面例子中把“如何”被错误地识别为了“女口何”,“请”字被错误地识别为了“谓”。

Author: cig01

Created: <2018-04-25 Wed>

Last updated: <2018-07-25 Wed>

Creator: Emacs 27.1 (Org mode 9.4)