Tesseract ocr 中文批量训练脚本

Tesseract ocr 中文批量训练脚本

@echo off 

 

set “src=%1%” 

set “font_name=%2%”

set “desc=%3%” 

 

 

if  not  defined src set /p src=” please pass your filename : “

 

if  not  defined font_name set /p font_name=” please pass your font_name : “

 

rem 判断参数的合法性

 

if  not  defined src echo  IllegalArgumentException arg1 must not be null &  pause>nul & exit

 

if  not  defined font_name echo  IllegalArgumentException arg2 must not be null &  pause>nul & exit

 

if  not  defined desc set “desc=%src:~0,-4%”  

 

 echo desc %desc%

 

rem 如果目录下没有font_properties 文件创建 font_properties ,并写入文件

if exist font_properties (

 echo  font_properties exist

) else (

ECHO  %font_name% 0 0 0 0 0  >”font_properties”

)

 

rem  删除原有文件  

if exist %font_name%.unicharset ECHO DEL %font_name%.unicharset &   DEL  /Q  names %font_name%.unicharset

if exist %font_name%.inttemp  ECHO DEL %font_name%.inttemp &  DEL  /Q  names %font_name%.inttemp

if exist %font_name%.pffmtable  ECHO DEL %font_name%.pffmtable &  DEL  /Q  names %font_name%.pffmtable

if exist %font_name%.shapetable ECHO DEL %font_name%.shapetable & DEL  /Q  names %font_name%.shapetable

if exist %font_name%.normproto ECHO DEL %font_name%.normproto & DEL  /Q  names %font_name%.normproto

if exist %font_name%.font_properties ECHO DEL %font_name%.font_properties & DEL  /Q  names %font_name%.font_properties

 

rem   makebox

 

tesseract  %src%  %desc%   -l chi_sim -psm 6 batch.nochop makebox

 

java -Xms128m -Xmx512m -jar jTessBoxEditor/jTessBoxEditor.jar

 

ECHO Please change your results , and press any key to continue

 

pause>nul 

  

tesseract  %src%  %desc%  -l chi_sim -psm 6 nobatch box.train

 

unicharset_extractor %desc%.box

 

shapeclustering -F font_properties -U unicharset %desc%.tr

 

mftraining -F font_properties -U unicharset -O  unicharset %desc%.tr

 

cntraining %desc%.tr

 

 

rem  配置新文件

if exist unicharset ECHO rename unicharset %font_name%.unicharset &  rename unicharset %font_name%.unicharset

if exist inttemp ECHO rename inttemp %font_name%.inttemp &  rename inttemp %font_name%.inttemp

if exist pffmtable ECHO rename pffmtable %font_name%.pffmtable &  rename pffmtable %font_name%.pffmtable

if exist shapetable ECHO rename shapetable %font_name%.shapetable &  rename shapetable %font_name%.shapetable

if exist normproto ECHO rename normproto %font_name%.normproto &  rename normproto %font_name%.normproto

 

combine_tessdata %font_name%.

 

if exist font_properties ECHO rename font_properties %font_name%.font_properties & rename font_properties %font_name%.font_properties

 

ECHO  press any key to continue

pause>nul 

 

 

转载于:https://my.oschina.net/rock912/blog/609780

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/109157.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • wireshark找不到接口win10_安装打印机找不到usb接口

    wireshark找不到接口win10_安装打印机找不到usb接口Win10下使用WireShark出现没有找到接口问题,无法抓取数据包解决:安装Win10Pcap。到http://www.win10pcap.org/download/下载该软件安装完成后,重启WireShark

    2022年10月24日
  • Eureka 集群部署

    Eureka 集群部署Eureka集群介绍 注册中心Eureka又称服务中心,管理各种服务功能包括服务的注册、发现、熔断、负载、降级等。任何一个服务都不能直接去掉用,都需要通过注册中心来调用。通过服务中心来获取服务你不需要关注你调用的项目IP地址,由几台服务器组成,每次直接去服务中心获取可以使用的服务去调用既可。由于各种服务都注册到了服务中心,就有了很多高级功能条件。比如几台服务提供相同服务来做客户端负载均衡(Ribbon);监控服务器调用成功率来做断路器(Hystrix),移除服务列表中的故障点;监控服务调用时间

  • 阿里云轻量级服务器和ecs的区别_阿里云服务器可以干嘛

    阿里云轻量级服务器和ecs的区别_阿里云服务器可以干嘛阿里云轻量应用服务器与云服务器ECS服务器对比优势 …

  • jQuery 快速入门教程

    jQuery 快速入门教程内容目录jQuery入门什么是jQuery如何使用jQueryjQuery的运行原理如何选择jQuery版本ready()准备就绪时执行代码jQuery核心:选取元素使用jQuery选择器选取元素,并封装为jQuery对象将现有的DOM元素封装为jQuery对象将HTML字符串封装为jQuery对象元素筛选jQ

  • 【uva 1153】Keep the Customer Satisfied(算法效率–贪心+优先队列)

    【uva 1153】Keep the Customer Satisfied(算法效率–贪心+优先队列)

  • 数据库MySQL学习——内含34道MySQL练习题及答案

    数据库MySQL学习——内含34道MySQL练习题及答案数据库MySQL1MySQL数据库简介1.1sql、DB、DBMS分别是什么,关系?DB:DataBase数据库DBMS:DateBaseManagementSystem数据库管理系统SQL:结构化查询语言、sql语句的编译有dbms完成DBMS负责执行sql语句,通过之心sql语句来操作DB当中的数据1.2什么是表?table是数据库的基本组成单元,所有的数据都以表格的形式组织,目的是可读性强行:被称为数据/记录(data)列:被称为字段(column)学号(

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号