java tess4j mave_图片处理,Tess4j读取验证码、识别文字

java tess4j mave_图片处理,Tess4j读取验证码、识别文字最近有个需求,读取一个网站的信息,需要读取验证码。一、环境依赖1、如果在Linux下运行,需要安装如下tesseract-ocr,在centos上yuminstalltesseract在ubuntu上aptinstalltesseract其他版本的Linux可以从下面的地址找安装方式https://tesseract-ocr.github.io/tessdoc/Home.html…

大家好,又见面了,我是你们的朋友全栈君。

最近有个需求,读取一个网站的信息,需要读取验证码。

一、环境依赖

1、如果在Linux下运行,需要安装如下 tesseract-ocr,

在 centos 上

yum install tesseract

在ubuntu上

apt install tesseract

其他版本的 Linux 可以从下面的地址找安装方式

https://tesseract-ocr.github.io/tessdoc/Home.html

2、如果在windows下运行

打开tess4j3.1.0.jar,把里面的win32-x86-64目录中的两个dll文件复制到C:\Windows\System32和C:\Windows\SysWOW64

需要安装vc开发环境

https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=40784

二、在pom.xml中引入maven

net.sourceforge.tess4jgroupId>

tess4jartifactId>

3.1.0version>

org.slf4jgroupId>

log4j-over-slf4jartifactId>

exclusion>

ch.qos.logbackgroupId>

logback-classicartifactId>

exclusion>

exclusions>

dependency>

三、代码如下

由于验证码图片中,大部分都有干扰信息,需要处理掉干扰信息,所以代码的大篇幅都在预处理图片。

import java.awt.image.BufferedImage;

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.IOException;

import javax.imageio.ImageIO;

import org.apache.log4j.Logger;

import net.sourceforge.tess4j.Tesseract;

import net.sourceforge.tess4j.util.LoadLibs;

import java.security.MessageDigest;

import java.math.BigInteger;

public class ImageUtil {

private static Logger log = Logger.getLogger(ImageUtil.class);

/**

* 读取验证码

* 1、去除验证码图片中的干扰信息

* 2、把背景改为纯白色

* 3、把文字改为纯黑色

* 4、读取验证码

* @param imagePath 原图片本地保存路径

* @return 验证码

* @throws Exception

*/

public static String readVerifyImage(String imagePath) throws Exception {

log.debug(“验证码原文件:” + imagePath);

// 处理图片

String outImage = dealImage(imagePath);

// windows和linxu的API路径不同,需要单独处理

File tessDataFolder = LoadLibs.extractTessResources(“tessdata”);

String tessdata = tessDataFolder.getAbsolutePath();

if(System.getProperty(“os.name”).toLowerCase().contains(“linux”)) {

tessdata.replace(“tessdata”, “”);

}

// 读取验证码

Tesseract instance = new Tesseract();

instance.setDatapath(tessdata);

instance.setTessVariable(“user_defined_dpi”, “300”);

String verification = instance.doOCR(new File(outImage));

verification = verification.replaceAll(“[^0-9a-zA-Z]”,””);

return verification;

}

/**

* 处理图片

* 其实可以不对图片做处理,直接使用Tess4j直接读取图片文字。

* 不过不经过图片处理的图片识别率较低,大概只有10%的成功率。

* 经过处理的图片,识别率提高到了50%左右。

* @param imagePath 图片的绝对或相对路径

* @return 处理后的图片保存路径

* @throws IOException

*/

public static String dealImage(String imagePath) throws IOException {

String formatName = imagePath.substring(imagePath.indexOf(“.”) + 1);

File file = new File(imagePath);

BufferedImage image = ImageIO.read(file);

int width = image.getWidth();

int height = image.getHeight();

BufferedImage outImage = new BufferedImage(width, height, image.getType());

int backgroudColor = image.getRGB(0, 0);

int backgroudR = (backgroudColor >> 16) & 0xff;

int backgroudG = (backgroudColor >> 8) & 0xff;

int backgroudB = backgroudColor & 0xff;

for (int i = 0; i < width; i++) {

for (int j = 0; j < height; j++) {

int color = image.getRGB(i, j);

int r = (color >> 16) & 0xff;

int g = (color >> 8) & 0xff;

int b = color & 0xff;

int newColor = color;

// 去除干扰信息,干扰信息为黑色相近46/256之内全部清理

if(r < 64 && g < 64 && b < 64) {

if(j-1 >= 0)

newColor = image.getRGB(i, j-1);

else if(i-1 >= 0)

newColor = image.getRGB(i-1, j);

else if(j+1 < height)

newColor = image.getRGB(i, j+1);

else if(i+1 < width)

newColor = image.getRGB(i+1, j);

r = (newColor >> 16) & 0xff;

g = (newColor >> 8) & 0xff;

b = newColor & 0xff;

}

// 去除背景颜色,相近的±30之内的全部设置为白色,灰色的干扰信息改为白色,文字改为黑色

if(Math.abs((r – backgroudR)) <= 30 && Math.abs((g – backgroudG)) <= 30 && Math.abs((b – backgroudB)) <= 30) {

newColor = 0xffffff;

} else if(r > 150 && g > 150 && b > 150){

newColor = 0xffffff;

} else {

newColor = 0x000000;

}

outImage.setRGB(i, j, newColor);

}

}

ByteArrayOutputStream out = new ByteArrayOutputStream();

ImageIO.write(outImage, formatName, out);

String outPath = new File(imagePath).getParent() + File.separator + getFileMd5(out.toByteArray()) + “.” + formatName;

File newFile = new File(outPath);

ImageIO.write(outImage, formatName, newFile);

log.debug(“处理后的验证码文件:” + outPath);

return outPath;

}

/**

* 根据文件字节流获取文件MD5

* @param fileBytes

* @return

*/

public static String getFileMd5(byte[] fileBytes) {

try {

MessageDigest md = MessageDigest.getInstance(“MD5”);

byte[] mdBytes = md.digest(fileBytes);

BigInteger bigInt = new BigInteger(1, mdBytes);

return bigInt.toString(16);

} catch (Exception e) {

log.error(“删除文件失败”,e);

return null;

}

}

}

处理前的图片

abb956c4a8c4733e78b8054a6d30e76e.png

经过处理后的图片如下:

7ce6c647872c063e57d04a226b09c699.png

四、图片处理

本案例中使用的图片处理方式为Java自带的awt包,简单的图片可以这样处理,如果需要处理复杂的图片,可以研究一下开源的图片处理工具ImageMagick

http://www.imagemagick.org/

五、Tess4j

1、如果Tess4j的版本与Tesseract版本不匹配,可能会出现如下错误:

Error opening data file /tessdata/eng.traineddata

Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your “tessdata” directory.

Failed loading language ‘eng’

Tesseract couldn’t load any languages!

#

# A fatal error has been detected by the Java Runtime Environment:

#

# SIGSEGV (0xb) at pc=0x00007fcd3f91bac7, pid=29532, tid=0x00007fcd762cd700

#

# JRE version: Java(TM) SE Runtime Environment (8.0_181-b13) (build 1.8.0_181-b13)

# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.181-b13 mixed mode linux-amd64 compressed oops)

# Problematic frame:

# C [libtesseract.so+0x9dac7] tesseract::Tesseract::recog_all_words(PAGE_RES*, ETEXT_DESC*, TBOX const*, char const*, int)+0x5e7

#

# Core dump written. Default location: /root/crgecent/core or core.29532

#

# An error report file with more information is saved as:

# /root/crgecent/hs_err_pid29532.log

#

# If you would like to submit a bug report, please visit:

# http://bugreport.java.com/bugreport/crash.jsp

# The crash happened outside the Java Virtual Machine in native code.

# See problematic frame for where to report the bug.

#

Aborted (core dumped)

截至2020年4月,tess4j的最新版本为4.5.1,如果你是windows的服务器,可以直接使用最新的版本。如果你需要部署到Linux,而又不会在Linux编译C语言源码,那么这里建议你使用tess4j-3.1.0版本。

因为最新4.5.1版本需要Tesseract4.1.0支持,但是Tesseract4.1.0没有安装版,只能通过下载源码自己编译。

https://github.com/tesseract-ocr/tesseract

2、可以通过添加语言包,来处理不同语言

1)添加语言包

比如想要读取简体中文,则可以添加tesseract-ocr-chi-sim的语言包

centos系统可以通过下面命令安装

yum install tesseract-ocr-chi-sim

ubuntu系统可以通过下面命令安装

apt install tesseract-ocr-chi-sim

windows系统,可以下载语言包chi_sim.traineddata,放到C:\Users\XXXX\AppData\Local\Temp\tess4j\tessdata

下载地址:

1、训练过的语言包:https://github.com/tesseract-ocr/tessdata

2、快速语言包:https://github.com/tesseract-ocr/tessdata_fast

3、最优语言包:https://github.com/tesseract-ocr/tessdata_best

2)代码中配置语言

instance.setLanguage(“chi_sim”);

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/137783.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 【USB】全球USB厂家 USB ID大全。更新时间:2018-01-04

    【USB】全球USB厂家 USB ID大全。更新时间:2018-01-04## ListofUSBID’s## MaintainedbyStephenJ.Gowdy# Ifyouhaveanynewentries,pleasesubmitthemvia# http://www.linux-usb.org/usb-ids.html# orsendentriesaspatches(diff-uoldnew)i

  • struts2 拦截器和过滤器理解

    struts2 拦截器和过滤器理解学习Struts2时,发现有过滤器和拦截器,他们貌似都是一样的功能,但是为什么会有2个不同的名称呢?肯定是有区别的,所以打算自己整理一下。          过滤器,是在javaweb中,你传入的request,response提前过滤掉一些信息,或者提前设置一些参数,然后再传入servlet或者struts的action进行业务逻辑,比如过滤掉非法url(不是login.do

  • PECP协议_rtcp协议

    PECP协议_rtcp协议  1.PathComputationElementProtocol(PCEP) asasouthboundplugininONOS.路径计算单元协议,ONOS的南向接口协议之一。(来源https://wiki.onosproject.org/display/ONOS/PCEP+Protocol) 2.ONOS是专门面向服务提供商和企业骨干网的开源SDN网…

  • sublime text3的激活成功教程和使用

    sublime text3的激活成功教程和使用个人博客:ZJBLOG之所以想用这个是因为最近在学Python不知道用啥ide好,看同事说这个不错就了解了下,已经有的notepad++感觉不太好编程吧,做记事本就行了,atom又感觉太卡了,打开慢的要死,加了一些特效插件后也卡。。所以试一下这个。首先安装sublimetext3(好像这个版本比2好就选择这个了)安装直接官网下载就行了官网地址:http://www.sublime…

  • java集合系列——Map之TreeMap介绍(九)

    TreeMap是一个有序的key-value集合,基于红黑树(Red-Black tree)的 NavigableMap实现。该映射根据其键的自然顺序进行排序,或者根据创建映射时提供的 Comparator进行排序,具体取决于使用的构造方法。

  • 计算机网络面试题总结

    计算机网络面试题总结一OSI与TCP/IP各层的结构与功能,都有哪些协议五层协议的体系结构1应用层域名系统HTTP协议2运输层运输层主要使用以下两种协议UDP的主要特点TCP的主要特点3网络层4数据链路层5物理层总结一下二TCP三次握手和四次挥手(面试常客)为什么要三次握手为什么要传回SYN传了SYN,为啥还要传ACK为什么要四次挥手…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号