Android基于百度OCR识别图片中的文字

Android基于百度OCR识别图片中的文字    OCR(OpticalCharacterRecognition),即光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。简单的来说,OCR技术就是可以把图片上的文字识别出来,并以文本格式的形式提取出来。    该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能,就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。请求模块定义   

大家好,又见面了,我是你们的朋友全栈君。

    OCR (Optical Character Recognition ),即光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。简单的来说,OCR技术就是可以把图片上的文字识别出来,并以文本格式的形式提取出来。
    该技术已广泛应用于生活中。比如很多翻译软件都有的拍照翻译功能,就利用了该技术。这里尝试使用百度OCR接口实现Android拍照识别文字功能。

请求模块定义

    这里以网络api的方式来进行识别。涉及到的技术有 retrofit+rxjava 进行网络请求,Android应用动态权限的申请,FileProvider,图片的base64转码,以及热门的MVP框架。

项目结构:
项目结构

    module目录下存放的是MVP架构的三个模块,bean目录下存放的是网络请求返回的数据类型,apiservice中存放的是retrofit有关网络请求的接口。
在这里插入图片描述

根据百度官方的请求方法定义接口方法:

    /** * 通过图片,获取图片内的文字信息 * @param accessToken 通过API Key和Secret Key获取的access_token * @param image 图像数据base64编码后进行urlencode后的String * @return observable对象用于rxjava,从RecognitionResultBean中可以获得图片文字识别的信息 */
    @POST("rest/2.0/ocr/v1/general_basic")
    @FormUrlEncoded
    Observable<RecognitionResultBean> getRecognitionResultByImage(@Field("access_token") String accessToken, @Field("image") String image);

    该方法中,第一个参数是access_token(需申请百度文字识别的开发者资格,得到API key和Secret Key后获取),第二个参数则是String类型,这个参数是在本地将图片base64转码之后生成。

    这些参数以POST的形式发送,按照百度OCR api 的要求,使用@FormUrlEncode注释。这里使用@Field的方式将参数加入请求体。可以看到Observable中的是RecognitionResultBean类型,从里面拿到服务器返回的文字识别信息。

定义好之后便可以构造retrofit对象进行调用。

 Retrofit retrofit = new Retrofit.Builder()
                .baseUrl("https://aip.baidubce.com/")
                .addConverterFactory(GsonConverterFactory.create())
                .addCallAdapterFactory(RxJava2CallAdapterFactory.create())
                .build();

        baiduOCRService = retrofit.create(BaiduOCRService.class);

rxjava+retrofit 在接口方法中的具体实现:

  @Override
    public void getRecognitionResultByImage(Bitmap bitmap) { 
   

        String encodeResult = bitmapToString(bitmap);

        baiduOCRService.getRecognitionResultByImage(ACCESS_TOKEN,encodeResult)
                .subscribeOn(Schedulers.io())
                .observeOn(AndroidSchedulers.mainThread())
                .subscribe(new Observer<RecognitionResultBean>() { 
   
                    @Override
                    public void onSubscribe(Disposable d) { 
   

                    }

                    @Override
                    public void onNext(RecognitionResultBean recognitionResultBean) { 
   
                        Log.e("onnext",recognitionResultBean.toString());
                        StringBuilder s = new StringBuilder();
                        List<RecognitionResultBean.WordsResultBean> wordsResult = recognitionResultBean.getWords_result();
                        for (RecognitionResultBean.WordsResultBean words:wordsResult) { 
   
                            s.append(words.getWords());
                        }
                        mView.updateUI(s.toString());
                    }
                    @Override
                    public void onError(Throwable e) { 
   
                        Log.e("onerror",e.toString());
                    }
                    @Override
                    public void onComplete() { 
   
                    }
                });
    }

接口要求的参数类型为String,所以要对图片进行base64转码,转码方法:

    private String bitmapToString(Bitmap bitmap){ 
   
        ByteArrayOutputStream baos = new ByteArrayOutputStream();
        bitmap.compress(Bitmap.CompressFormat.JPEG, 100, baos);
        byte[] bytes = baos.toByteArray();
        return Base64.encodeToString(bytes, Base64.DEFAULT);
    }

    调用此方法,便可以把图片类型转化成字符串类型。之后再对网路接口调用之后的回调方法进行定义。在调用成功后的onNext操作中,可以得到RecognitionResultBean类型参数。这个参数里含有图片所包含的文字信息,这里将所有文字取出,用StringBuilder连接成一个新的字符串返回View层。

相机功能调用

首先在AndroidManifest清单文件中写明需要用到的权限(网络请求权限、数据的读取和存取权限以及相机权限):

    <uses-permission android:name="android.permission.INTERNET" />
    <uses-permission android:name="android.permission.WRITE_EXTERNAL_STORAGE"/>
    <uses-permission android:name="android.permission.READ_EXTERNAL_STORAGE"/>
    <uses-permission android:name="android.permission.CAMERA"/>

调用相机功能的代码如下:

 private void takePhoto(){ 
   

        if (!hasPermission()) { 
   
            return;
        }

        Intent intent = new Intent();
        intent.setAction(MediaStore.ACTION_IMAGE_CAPTURE);
        String path = Environment.getExternalStorageDirectory().getAbsolutePath() + "/img";
        if (new File(path).exists()) { 
   
            try { 
   
                new File(path).createNewFile();
            } catch (IOException e) { 
   
                e.printStackTrace();
            }
        }
        String filename = new SimpleDateFormat("yyyyMMdd_HHmmss").format(new Date());
        mTmpFile = new File(path, filename + ".jpg");
        mTmpFile.getParentFile().mkdirs();

        if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.M) { 
   
            String authority = getPackageName() + ".provider";
            imageUri = FileProvider.getUriForFile(this, authority, mTmpFile);
        } else { 
   
            imageUri = Uri.fromFile(mTmpFile);
        }
        intent.putExtra(MediaStore.EXTRA_OUTPUT, imageUri);

        startActivityForResult(intent, CAMERA_REQUEST_CODE);

    }

调用相机之后重写onActivityResult方法,对返回拍照结果进行处理:

    @Override
    protected void onActivityResult(int requestCode, int resultCode, Intent data) { 
   
        if (requestCode == CAMERA_REQUEST_CODE) { 
   
            if (requestCode == RESULT_OK){ 
   
                Bitmap photo = BitmapFactory.decodeFile(mTmpFile.getAbsolutePath());
                mPresenter.getRecognitionResultByImage(photo);
                imageView.setImageBitmap(photo);
            }
        }
    }

这样拍照成功的话,照片就将作为参数传递给之前定义好的接口方法,调用进行图片文字识别。等服务器成功返回识别结构之后,就会调用VIew层的updateUI,更新textview显示识别结果。

作者:吴越

原文链接

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/146138.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 2021山东安全员c证考试题库_C类安全员

    2021山东安全员c证考试题库_C类安全员题库来源:安全生产模拟考试一点通公众号小程序2022山东省安全员C证培训试题为山东省安全员C证判断题的新全考试题型!2022年山东省安全员C证考题及答案根据山东省安全员C证考试教材。山东省安全员C证复审模拟考试随时根据安全生产模拟考试一点通上手机同步练习。1、【多选题】一般模板工程通常由()等组成。(ABD)A、面板B、支架C、加固件D、连接件E、螺栓2、【多选题】下列沥青洒布车阀门及油路符合要求的是()。(ABCDE)A、各操作部分应灵活有效,各阀的…

  • python attrs_一直比较疑惑python中关于attrs的问题

    python attrs_一直比较疑惑python中关于attrs的问题今天看一个爬虫代码的时候遇到如下代码:links=getLinks(“/wiki/Python_(programming_language)”)print(links)while(len(links)>0):forlinkinlinks:print(“——————-“)historyIPs=getHistoryIPs(link.attrs[“href…

    2022年10月17日
  • python中文件的写入_python列表写入txt文件

    python中文件的写入_python列表写入txt文件1.自己写入txt直接上核心代码:withopen(“douban.txt”,”w”)asf:f.write(“这是个测试!”)12这句话自带文件关闭功能,所以和那些先open再write再close的方式来说,更加pythontic!结果就是这样:2.将文件输入(print)的内容写入txt我并不喜欢手写字符,更多时候用到的就是将程序跑出来的print写到txt中保存,比如

  • 大数据理论体系

    大数据理论体系目录结构大数据是什么?大数据是如何发展起来的?大数据处理的基本流程是什么?为什么说数据不动代码动?移动计算比移动数据更划算?DAG对大数据处理有什么好处?批处理和流处理如何区分?有边界数据和无边界数据如何区分?批处理中如何提高CPU利用率?什么是事件时间和处理时间?Workflow设计模式指的什么?什么是商业智能(BI)?分布式锁是什么?如何实现?分布式事务是什么?如何实现?分布式锁和分布式事务有什么区别?CAP定理是什么?BASE理论是什么?分布式系统有哪些衡量指标?

  • Yourphp系统发生错误

    Yourphp系统发生错误

  • python lambda表达式_Python进阶

    python lambda表达式_Python进阶Lambda表达式lambda表示的是匿名函数,不需要用def来声明,一句话就可以声明出一个函数语法函数名=lambda参数:返回值注意点1.函数的参数可以有多个,多个参数之间用逗号隔

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号