图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(3)目录结构:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr–4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

识别后的test.txt的文字内容:

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/114745.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 硬件介绍CPU显卡内存[通俗易懂]

    硬件介绍CPU显卡内存[通俗易懂]一,CPU主频:这是一个最受新手关注的指标,指的就是CPU内核工作的时钟频率(CPUClockSpeed)。通常所说的某款CPU是多少兆赫兹的,而这个多少兆赫兹就是“CPU的主频”。在学校经常听见一些人问,XXX网吧的CPU2.66G!XXX网吧的才2G,有人用2.66G的赛扬与2.0G-2.66G的P4比,这是无知的表现,和他们争是无意义的:)。主频虽与CPU速度有关系,但确对不是绝对的正比…

  • 小白/新人学Python,用哪个编辑器?VSCode还是PyCharm?[通俗易懂]

    小白/新人学Python,用哪个编辑器?VSCode还是PyCharm?[通俗易懂]先说结论:优先选择PyCharm,不论你学习Python的目的是什么:数据科学/金融/爬虫/网页开发/…原因如下:超全Python编辑器大总结,优缺点一目了然!从功能上说,最全面的只有2个:VSCode和PyCharm,VSCode不适合小白的原因:需要单独配置Python和各种框架的开发环境,运行界面更加复杂PyCharm适合小白的原因:安装和配置简单,所有代码都可以一键运行,小白一看就会。PyCharm下载/安装/配置/使用:视频教程…

  • c语言求一个数的补码_反码补码原码怎么转换

    c语言求一个数的补码_反码补码原码怎么转换原码、反码和补码1).数据在内存中存储的时候都是以二进制的形式存储的.intnum=10;原码、反码、补码都是二进制.只不过是二进制的不同的表现形式.数据是以补码的二进制存储的.2).1个int类型的变量.在内存中占据4个字节,32位.00000000000000000000000000000000在不考虑正负的情况下.1个int类型的变量可以表示接近43e种数据.为了可以表示正负…

  • 自定义BeanUtils的populate方法实现「建议收藏」

    自定义BeanUtils的populate方法实现「建议收藏」1.1.1功能分析publicstaticvoidpopulate(Objectbean,Mapmap)//修改任意对象中的属性,为传入Map集合中的键和值思路:1.获取传入对象的字节码对象2.获取map集合中所有的键和值3.调用Class中的getDecl…

  • 正则表达式Python_js正则表达式实例

    正则表达式Python_js正则表达式实例正则表达式详解正则表达式英文名称叫RegularExpression简称RegEx,是用来匹配字符的一种工具,它常被用在网页爬虫,文稿整理,数据筛选等方面,最常用的就是用在网页爬虫,数据抓取。一、正则表达式的各种符号解释(来自维基百科)~~~是不是感觉太多了,因此我将常用的整理出来了二、进行逐个详解1.首先导入模块importre2.匹配多种可能使用[]…

  • 递归算法php,php递归算法经典实例「建议收藏」

    递归算法php,php递归算法经典实例「建议收藏」PHP递归算法就是函数调用函数了操作非常的简单了,我们下面来给各位介绍PHP递归算法及实际的一些关于递归的用法。递归函数为自调用函数,在函数体内直接或间接自己调用自己,但需要设置自调用的条件,若满足条件,则调用函数本身,若不满足则终止本函数的自调用,然后把目前流程的主控权交回给上一层函数来执行,可能这样给大家讲解,还是很难明白,直接上例子functiontest($n){echo$n.”…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号