图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

全栈程序员-用户IM • 2021年9月26日上午8:00 • 未分类

简介：

tesseract-ocr可以对图像文字进行识别，为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库，使图像转换文本的能力不断增强，也可以调试模型使图像文字进行程序的识别率更高，

一.tesseract4.0的安装与配置环境变量：

2、下载完之后，直接执行.exe文件进行安装，安装步骤：

（1）选择语言包：

除了默认已经打钩的，再钩上数字公式常用包和简体中文包。

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

（2）选择安装路径：（需要记住自己的安装路径，后面配置需要用到）

我的安装路径是：D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

（3）目录结构：

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

（4）配置环境变量：

第一步：在环境变量界面的系统变量中找到Path，点击编辑，新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR（你的安装目录），然后确定。

第二步：在系统变量下面新建一个变量，然后确定。

变量名：TESSDATA_PREFIX

变量值：D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

（5）检验环境变量是否配置成功：打开cmd命令行，在任意路径，输入“tesseract”，出现下面信息则表示配置成功。

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别：

1、先准备一张图片素材（图片命名是wenzi.png），内容如下图：

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行，进入素材图片所在的目录，输入以下命令，就会生成一个test.txt文档，该文档的内容为图片识别后的文字：

tesseract wenzi.png test -l chi_sim+equ+eng

其中，wenzi.png是素材的名字，test是识别后生成的文档的名字，-l是指定使用包(注意：是小写英文字母l，不是阿拉伯数字1)，chi_sim是中文识别包，equ是数字公式包，eng是英文包。

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容：

图片文字识别（一）：tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此，使用tesseract4.0进行简单的文字识别就完成，虽然识别的成功不高，但是我们可以通过训练字库的方法提高tesseract的识别率，训练tesseract字库的方法在下篇博客再写。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/114745.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...