pytorch ocr 数字识别库_pytorch handbook

pytorch ocr 数字识别库_pytorch handbook实时姿态估计网络:https://github.com/Sierkinhane/AtrousPose简单单人跟踪:https://github.com/Sierkinhane/human_tracker(基于目标检测与特征映射算法)演示视频:https://www.bilibili.com/video/av44360925新写的关于人脸检测算法MTCNN的文章https://……

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

CVPR2022弱监督语义分割:https://blog.csdn.net/Sierkinhane/article/details/126228039

开源仓库:https://github.com/CVI-SZU/CLIMS

简单单人跟踪:https://github.com/Sierkinhane/human_tracker(基于目标检测与特征映射算法)

演示视频:https://www.bilibili.com/video/av44360925

斯坦福机器学习课程资料以及算法实现吴恩达-斯坦福CS229机器学习课程资料与算法的Python实现_Sierkinhane的博客-CSDN博客

代码仓库:GitHub – Sierkinhane/CS229-ML-Implementation: Implementation of algorithms introduced in CS229.

     在六七月份参加了一个比赛,做的项目是提取图片中的文字信息,首先是接触了一些文本检测算法(如CTPN,East),后研究了文本识别算法(我认为较好的是CRNN)。代码实现是参考算法提出者的pytorch,python3版本的crnn实现。因为python版本的迭代,导致代码重使用比较难,其中涉及到ctc,python编码,中文数据集,如何将模型finetune到自己的应用场景上种种问题。实现的深度学习框架是pytorch,虽然TensorFlow也可以,但是比较多坑。其实是什么框架实现的都没关系,现在语法都是比较简单,看懂不难!

     因为自己已经踩了很多坑,也填好了这些坑,就将自己填好的项目贡献给大家!

     GitHub – Sierkinhane/CRNN_Chinese_Characters_Rec: (CRNN) Chinese Characters Recognition. 代码地址

     这次分享的是文本识别算法CRNN,具体的内容我就不涉及了,这篇文章主要是做算法代码的实现(参考原作者),建议大家研读算法一定要看作者发的Paper! CRNN论文地址:http://arxiv.org/abs/1507.05717作者是华中科技大学的老师

     先放一些效果图,利用360万的中文数据训练集,最后可以finetune到97.7%的验证准确率,训练好的模型在train_models文件夹

pytorch ocr 数字识别库_pytorch handbook

pytorch ocr 数字识别库_pytorch handbook

pytorch ocr 数字识别库_pytorch handbook

pytorch ocr 数字识别库_pytorch handbook

    第一、二张图片是最近修改的一个demo,第三、四张图是CTPN算法和CRNN的结合,可以将图片上的任何文字信息提取。因为CTPN要求的环境比较复杂,所以这次只放出CRNN的代码,因为CRNN实现环境比较简单。

    现在开始介绍代码:

            

pytorch ocr 数字识别库_pytorch handbook

代码的实现必须是Linux环境(因为涉及到warp-ctc的安装,最好是Ubuntu16.04,能跳的坑我基本都填了)

1. Warp-ctc安装

首先得安装warp-ctc GitHub – SeanNaren/warp-ctc: Pytorch Bindings for warp-ctc,这是pytorch版本的ctc实现(计算序列loss,具体看论文),安装方法按照作者的步骤即可,如果遇到问题可以私聊我。我是在Ubuntu16.04安装的,并没有太大问题,但是在17.04就遇到很多问题,所以最好用Ubuntu16.04作为代码实现环境。

现在只需将pytorch更新至1.1.0,使用其自带的ctcloss即可。

2. 测试

    安装好ctc后,直接运行终端输入 python3 test.py 试下效果,测试图片在test_images文件夹下。

3. 训练

pytorch ocr 数字识别库_pytorch handbook

pytorch ocr 数字识别库_pytorch handbook

    正确的训练效果如图。

    训练之前首先制作数据集,因为360万的中文数据集制作成lmdb格式的数据有十几G,就没直接放到Github中。

    先下载360万中文数据集:Synthetic Chinese String Dataset .rar_免费高速下载|百度网盘-分享无限制

    对于数据集我想说明一下,在文字识别领域有比较多的识别场景,例如场景文本识别,比较正规的图片信息识别,这些不同的应用场景需要对应不同的数据集训练,这次我自己应用到的场景比较正规的字体识别,所以这个训练集不一定能够用到所有场景,但也确实提供了一个不错数据集资源!还有就是训练集最好是具有语义信息,如果只是将文字随机的组合生成图片作为训练集,模型收敛会更慢并且准确率受限!

   下图是部分训练集

pytorch ocr 数字识别库_pytorch handbook

      (这个数据是在Github中找到的,暂时没找到他的地址,很感谢作者的奉献!)

       数据集是随机选取定长的字数,经过模糊、倾斜、颜色变化等操作之后生成的,比较具有一般性,能很好地提升模型的Robust。

        下载好数据集之后如果解压出错,不完整,可以用好压进行修复。

        修改crnn_main_v2.py中的图片路径和标签路径,运行python crnn_main_v2.py即可

        接下来是制作lmdb格式的数据。

        图片与之对应的标签我链接:https://pan.baidu.com/s/1jfAKQVjD-SMJSffOwGhh8A 密码:u7bo,只需要将下载好的数据集放到lmdb文件中,根据情况修改to_lmdb.py中的文件名 运行该py程序就可以制作lmdb格式的数据!(需要用Python2来运行to_lmdb.py)

          制作好数据集之后将它放到lmdb_dataset文件夹中调出终端:

       python3 crnn_main.py –train_root 训练数据集路径 –val_root 验证集路径 –cuda (如果有cuda加速可选)

       大概流程就是这样了,最主要的还是自己看待自己琢磨!

       (不定长识别是将训练集图片的放缩feed到神经网络中的尺寸应用到测试中,test.py已经标注!)

       (如果有帮助到你,可以在Github给我个star!)

       (下一篇:斯坦福机器学习课程资料以及算法实现吴恩达-斯坦福CS229机器学习课程资料与算法的Python实现_Sierkinhane的博客-CSDN博客

  

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/194746.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • N 皇后问题_用回溯法解N皇后问题

    N 皇后问题_用回溯法解N皇后问题n皇后问题研究的是如何将n个皇后放置在n×n的棋盘上,并且使皇后彼此之间不能相互攻击。给定一个整数n,返回所有不同的n皇后问题的解决方案。每一种解法包含一个明确的n皇后问题的棋子放置方案,该方案中‘Q’和‘.’分别代表了皇后和空位。示例如下:输入:4输出:[[".Q..",//解法1"…Q","Q…","…..

  • java怎么输出数组的下标_java数组获取指定元素

    java怎么输出数组的下标_java数组获取指定元素/** *输出数组指定元素的下标 */ publicstaticvoidmain(String[]args){ //定义一个数组 int[]array=newint[]{123,456,789,321,654,987}; intindex=printArray(array,321); System.out.println(“321对应的下标是:”+index); //查询没有的数据 intindex1=printArray(array,1..

    2022年10月11日
  • linux tomcat自动重启(linux关闭服务器命令)

    这里重启的条件是之前已经启动了tomcat服务器的情况下第一步:进入linux下tomcat目录,这里需要看你的tomcat配置在linux的哪个位置下,下面只是我个人的配置目录,不代表全部cd/usr/local/src/tomcat/bin第二步:查看当前启动的tomcat使用的进程,通过查看,我们发现tomcat占用了1630端口ps-ef|greptomc…

  • 架设私有的Git服务器[通俗易懂]

    架设私有的Git服务器[通俗易懂]Git是一个版本控制系统,现如今正在被全世界大量开发者使用。许多公司喜欢使用基于Git版本控制的GitHub代码托管。根据报道,GitHub是现如今全世界最大的代码托管网站。GitHub宣称已经有920万用户和2180万个仓库。许多大型公司现如今也将代码迁移到GitHub上。甚至于谷歌,一家搜索引擎公司,也正将代码迁移到GitHub上。GitHub能提供极佳的服务,但却有一些限制,尤其是你是单人或是一名coding爱好者。GitHub其中之一的限制就是其中免费的服务没有提

  • 笔记本卡顿不流畅是什么原因_笔记本卡顿不流畅是什么原因_笔记本电脑卡顿不流畅如何解决-win7之家…「建议收藏」

    笔记本卡顿不流畅是什么原因_笔记本卡顿不流畅是什么原因_笔记本电脑卡顿不流畅如何解决-win7之家…「建议收藏」有不少笔记本电脑用户在使用过程中,发现会经常会遇到卡顿不流畅的情况,很多用户不知道是什么原因引起的,其实原因有很多,可能是电脑本身配置不足,或者电脑占用率过高,或者内存不足等,接下来给大家带来笔记本电脑卡顿不流畅的详细解决方法吧。具体步骤如下:1、CPU不足电脑卡顿很多时候都是因为CPU占用过高,实质还是CPU太小引起的,我们可以将多余的进程或者软件关闭,或者更换性能好的CPU来解决这个问题,电脑…

  • 应对ddos攻击_网络安全主动攻击

    应对ddos攻击_网络安全主动攻击主要讲解Ddos攻击原理和实践操作

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号