分享好友 最新动态首页 最新动态分类 切换频道
ocr优化
2024-12-29 23:38
(一)提高OCR准确度方法

1.检查图像质量
我们首先要确保原始图像是可见的,以便它们可以获得更好的结果。
2.选择最好的OCR模型
OCR主要负责理解给定图像中的文本,因此有必要选择能够更好的检测和识别的模型,来处理图像

3.将图像缩放到合适的大小

我们尝试将图像缩放到大约300 dpi的标准尺寸,低于此尺寸的图像都会产生不清晰的结果,而高于600 dpi的图像会使输出文件变大而质量不高。

4.消除图像中的噪音

如果图像中存在背景或前景噪声,我们要将其删除,以便获得高质量的数据输出。

5.纠正布局

在预处理阶段,重要的是校正页面以使字线是水平的,以帮助OCR以更准确的方式识别文本边界。

6.准备足够多的检测集和识别集

大量数据能够更好的训练,提高准确度。

(二)提升自然场景下的文字识别精度

OCR识别一般分为两步:文本检测,文本识别。

:采用对比极值区域CER检测方法
文本检测首先要从图像中切割出可能存在的文字,在传统检测方法ER和MSER基础之上采用了对比极值区域CER
CER是跟周围的背景有一定对比度的极值区域,这个对比度至少要强到能够被人眼感知到,在低对比度的图像上比MSER效果更好,而且获得的候选连通区域数量远小于ER,候选范围大大缩小,提高了算法的效率。
在图像模糊、分辨率低或者噪声较多时,提取出来的CER有可能会含有冗余像素或者噪声,这些冗余像素或者噪声的存在会使得后面的文字/非文字分类问题变得更为复杂。

在实际操作中,并不是每个CER都需要通过颜色信息来增强,因为有很多CER本身颜色均匀,没有噪声,尤其是在图片质量很高的时候。因此,在对CER进行增强操作之前我们会先判断该CER是否需要增强操作,以减少不必要的计算复杂度。

:基于浅层神经网络的文字/非文字分类算法

当获得了高质量的候选连通区域,就需要对其中的字符进行分辨,确定其是否为文字或非文字
基于浅层神经网络的文字/非文字分类算法,比以往的算法更加有效。

该算法根据文字本身的特性采用分治策略将原始问题空间划分为5个子空间,每个子空间对应一类文字样本,分别命名为Long类,Thin类,Fill类,Square-large类和 Square-small类(如下图所示,于是每个候选连通区域被划分到这5类中的一种。

每次分类动作包括两个阶段——预剪枝(Pre-pruning)阶段和验证(Verification)阶段。在预剪枝阶段,分类器的任务是尽可能滤除无歧义的非文字候选连通区域;在验证阶段,则通过引入更多信息来消除孤立连通区域的歧义性,从而进一步滤除有歧义的非文字候选连通区域。

(三)优化文本检测

图中可以看到对于ImageNet 1000图像分类任务,MobileNetV3在相同预测速度的情况下,准确率最好。因此我们选择MobileNetV3作为骨干网络。

2.头部轻量化
DB文本检测的头部是类似目标检测中FPN的网络结构。融合了多个分辨率的特征图,提升对不同尺度目标的检测效果。为了便于特征融合,一般会使用一个1*1的卷积,将不同分辨率的特征图的特征通道数转换为相同的特征通道数,简称为inner_channels。考虑到预测的概率图和阈值图都与inner_channels相关,所以inner_channels对模型大小有非常大的影响。表2中显示,将inner_channels从256减小到96,模型大小从7M减小到4M,预测时间从406ms减小到213ms,加速50%,效果指标HMean下降不到1%。可见inner_channels对模型大小的影响,减小这个值,综合收益比较明显。

3.预热学习率
之前很多研究表明,在训练刚开始,使用太大的学习率,会导致学习过程中数值上不稳定。建议刚开始使用较小的学习率,逐步增加到初始学习率,这样有助于效果提升。对于文本检测,这个策略非常也有效。

4.基于Tesseract—OCR技术

  • 对图片进行切割
  • 在进行图片的二值化时,有两种方式
    (1)图片为彩色时,宜找到每个像素点合适的灰色度,因为每个像素点的灰色度不同程度上受到周边像素加权影响,从而影响整个图片的识别率。
    (2)图片为黑白色时,宜采用max-min方法对图片进行二值化。
  • 选取二值化中的经验阈值,我们有以下思路
    (1)二值化微分计算阈值
    (2)二值化类卷积的对梯度变化加强得到阈值

对24位位图进行中值滤波会改变RGB各分量的值,所以图片的颜色会发生变化,但对于8位的位图,由于都是灰度的颜色,所以变化并不明显,而且滤波的窗口选的越大,对应的滤波效果的模糊度也会上升。

- 增加图片的亮度

增加图片亮度可以使有些彩色图片的识别率大大增加,本程序别的图片为黑白照片,增加图片亮度提升的识别率并不乐观。

- 对图片的边缘进行尖锐化处理

锐化可以快速调整图像边缘细节的对比度,并在边缘的两侧生成一条亮线一条暗线,使画面整体更加清晰。对于高分辨率的输出,通常锐化效果在屏幕上显示比印刷出来的更明显。

- 对图片进行平滑缩放

最新文章
AI绘画神器Stable Diffusion下载安装指北【收藏版】
今天分享一个AI绘画神器 Stable Diffusion。 过年这几天自己部署了下sd,使用的是秋叶大佬的整合包,还真是方便,分分钟就能启动。 软件领取看文末~Stable Diffusion 使用秋叶大佬发布的【绘世整合包】作为软件,
Chimera越狱和Sileo商店常见问题及解决方法
​​所需工具:Chimera适用系统:iOS 12.0 - iOS 12.1.2 哈喽大家好,欢迎来到蜜蜂科技f.Chimera越狱工具终于出来,让沉浸的越狱圈再次复苏了。这边蜜蜂就为大家讲讲一些常见问题和解决方法。问:出现404报错   答:国行机型特有。方法1
android apk 防止反编译技术第三篇-加密
上一篇我们讲了apk防止反编译技术中的加壳技术,如果有不明白的可以查看我的上一篇博客http://my.oschina.net/u/2323218/blog/393372。接下来我们将介绍另一种防止apk反编译的技术-运行时修改字节码。这种方法是在工作中在实现app wrapping
10个最强大的AI游戏生成器
NSDT工具推荐:Three.js AI纹理开发包 - YOLO合成数据生成器 -GLTF/GLB在线编辑 -3D模型格式在线转换 -可编程3D场景编辑器 -REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 -STL模
AI+语音:重塑人机交互的未来
随着人工智能技术的迅猛发展,AI在语音处理领域的应用愈加广泛。特别是在语音识别和语音合成技术的推动下,AI正在彻底改变我们与机器之间的互动方式,让沟通变得更加自然流畅。一、语音识别:机器的“听力”语音识别是将人类语言转化为机器
chat人工智能机器人国内入口
chat人工智能机器人是基于人工智能技术的,能够像真正的人类一样与用户交流并提供服务。用户可以通过文字、语音等多种方式与ChatAI进行交流。不仅可以真实自然的和您聊天,还可以给予您各方面的参考,答疑您遇到的问题。还提供内容创作的功能
Emby Server
Emby Server可以在用户闲置设备上搭建服务端,可以在管理页面看到公网和内网ip信息,局域网客户端直接输入内网地址:端口号即可访问Emby流媒体,在多设备或者平台之间共享媒体文件和流式传输。1、通过网络多媒体内容,有了它的帮助,你可以流
AI制作人物头像头发:绘制与教程详解
在数字化时代,人工智能技术的飞速发展为咱们带来了前所未有的便捷与创意。人物头像的绘制,其是头发的制作,一直是多设计师和艺术爱好者的难题。如今,借助的力量,咱们可以轻松打造出自然、生动的人物头像头发。本文将为您详细介绍制作人
6月ChatGPT商业运营网站程序源码最新GPT-4o对接,支持Midjourney绘画+DALL-E3文生图+suno-ai音乐生成+语音对话+GPTs应用市场
SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。本系统支持MidJourney绘画、支持DALL-E3绘画,支持最新gpt-4o-2024-05-13多模态模型、支持suno-AI音乐生
ChatGPT Search重磅发布!OpenAI牌搜索引擎来了!
大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,A
相关文章
推荐文章
发表评论
0评