Tesseract (Open Source OCR)

1. Tesseract 简介
2. 中文识别基本使用

1. Tesseract 简介

Tesseract 是开源 OCR（Optical Character Recognition）引擎。

Tesseract 由 HP 实验室于 1985 年开始研发，至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一。然而，HP 不久便决定放弃 OCR 业务，Tesseract 也从此尘封。数年之后，Tesseract 已经开源，github 地址为 https://github.com/tesseract-ocr/tesseract。

2. 中文识别基本使用

安装 tesseract 后，使用 --list-langs 选项可查看其支持的语言：

$ tesseract --list-langs
List of available languages (2):
eng
osd

中文并不在列，从 https://github.com/tesseract-ocr/tessdata 下载中文训练数据：chi_sim.traineddata，把相应的语言训练数据放入到安装目录的“tessdata”子目录中。这时可发现 Tesseract 已支持中文识别：

$ tesseract --list-langs
List of available languages (3):
chi_sim
eng
osd

假设有图 1 所示图片。

Figure 1: 测试图片

下面对其进行中文识别：

$ tesseract tesseract_test.png -l chi_sim tesseract_test
Tesseract Open Source OCR Engine v3.05.01 with Leptonica

识别后的文字保存在文件 tesseract_test.txt 中：

$ cat tesseract_test.txt
想知道自己的中文水平女口何吗， 这里有一份测试题。

谓选择你觉得最正确的答案 不要查字典， 也不要求助他人。 1oo分
为满分， 看你能得多少分?

从结果中可知，中文训练数据 chi_sim.traineddata 表现得不是很好，在上面例子中把“如何”被错误地识别为了“女口何”，“请”字被错误地识别为了“谓”。

Tesseract (Open Source OCR)

Table of Contents

1. Tesseract 简介

2. 中文识别基本使用