8.6M超轻中英文OCR模型开源、训练部署一致-Demo可在线播放-量子比特
- 时间:
- 浏览:0
说起生活中最常见、最方便的AI应用技术,OCR(光学文字识别)就属于其中之一。
日常办理各类业务时身份证的识别,从前沿到自动驾驶车辆路标的识别,其加持是必不可少的。
作为开发商,各种OCR相关需求当然也不少:卡证识别、票据识别、汽车场景、教学场景文字识别……
那么,这个模型的尺寸仅仅是8.6M,没有GPU也能跑,试着理解为多硬件配备提供自定义训练的开发配套元件的开源通用OCR项目呢?
不要说太多,先看看效果吧。
无论文字是横向排列还是纵向排列,你都会发现这个超轻模型有很好的识别效果。
难度稍高,更不用说现实生活中经常遇到的场景了。
那么,在更复杂的情况下,这样的小模型能支撑得住吗。
毕竟,在实际应用场景中,图像中的文字不可避免地存在文字弯曲、模糊等诸多问题。
例如,非精细路标:
本体部分基本上没有识别错误,英文只有小字部分确实模糊,所以识别效果不是很理想。
再看一张文字背景复杂的图像识别效果:
出现错字,扣1分。如果满分是10分,你可以打9分。
在实际OCR项目实施过程中,开发商往往面临两个痛点:
这对于超轻模型及其全过程解决方案,特别是计算能力、存储空间有限的移动终端和嵌入式设备来说是必要的。
在这个开源项目中,开发人员提供了可以直接测试的Demo。
在量子比特的实际手工测试中,对于移动端Demo这样的小于10M的模型,基本上秒就能达到效果。
中文在公开数据集ICDAR2017-RCTW中,限定图片的长边尺寸960px,在测试数据和测试条件相同的前提下,在此项目之前一次登录GitHub热排行榜的Chineseocr_测试比较Lite(5.1 kstars)最新发布的10M机型。有关模型的大小、精度和预测速度,请执行以下操作:。
该8.6M超轻量模型,V100GPU单卡的平均预测时间为57ms,CPU的平均预测时间为319ms。
另一方面,Chineseocr_Lite的10M机型,V100单卡预测速度230ms,CPU平均预测时间739ms。
当然,该模型预测速度的提高不仅仅是因为模型的大小变小了,而且算法和帧深度更适合优化。
项目中记载的Benchmark如下:
GitHub作为面向编程的程序员,我觉得所有者来寻求各种各样的OCR很不方便。
而这款8.6M超轻开源机型,背后是大工厂的背书。
因为展出者是国产AI开发的哥哥百度,他们把这个最新开源的OCR工具库命名为PaddleOCR。
GitHub地址:https://GitHub.com/PadddlePadle/PadleOCR
8.6M的通用如何纯化OCR模型
PaddleOCR发布的超轻型模型主要由4.1M检测模型和4.5M识别模型组成。
其中,检测模型的基本模型采用了DB算法,文本模型的基本模型采用了经典的CRNN算法。
考虑到MobileNetV3在端侧系列机型中的出色性能,两款机型都选择使用MobileNetV3作为主干网,初期可将机型大小减少90%以上。
此外,开发商还采用了减少特征渠道数量等策略,进一步压缩了模型尺寸。
虽然模型很小,但是训练用的数据集一点也不少,根据项目方面提供的数据,模型使用的数据量(包括合成数据)约为100万~1000万订单。
但在一些垂线场景中,通用OCR模型的精度可能无法满足需求,算法模型部署到实际项目中也可能遇到各种问题,该怎么办呢。
PaddleOCR从训练到部署,都提供了非常全面的一致指南,堪称“最全OCR开发者的礼物”。
“最全OCR开发者大礼包”△礼品目录可以说是业界最支持定制培训的
OCR业务其实有其特殊性,用户的需求在通用模型中难以满足,以前开源的Chineseocr_Lite也不支持用户培训。
为了方便开发人员使用自己的数据定制超轻模型,PaddleOCR除了提供8.6M超轻模型外,还同时提供了两种文本检测算法(EAST、DB)、四种文本识别算法(CRNN、Rosseta、STAR-Net、RARE),几乎可以满足一般OCR任务的需求算法持续丰富。
特别是“模型训练/评估”的“中文OCR训练预测技术”,可以看到“中文长文本识别的特殊处理,如何更换不同的backbone等业务实战技术”,符合开发商项目实战中的炼丹需求。
贯穿预测部署的整个过程
对开发商来说更友好的是,PaddleOCR提供了手机终端(包括iOS、Android Demo)、嵌入式终端、大规模数据离线预测、在线服务化预测等众多预测工具组件的支持,可以满足多样化的工业级应用场景。
数据集汇总
项目开发人员正在组织和持续更新常用的“中文”数据集、注释和合成工具。
当前包含的数据集包括:。
5个大型通用数据集(ICDAR2019-LSVT、ICDAR2017-RCTW-17、中文街景文字识别、中文文件文字识别、ICDAR2019-ArT)大规模手写中文数据集(中国科学院自动化研究所-手写中文数据集)垂类多语言OCR数据集(中国城市牌照数据集、银行信用卡数据集、验证码数据集-Captcha、多语言数据集)
另外,还整理了一般的数据标记工具(labelImg、roLabelImg、labelme)、一般的数据合成工具(text_renderer、SynthText、SynthText_Chinese_version、TxtRecognitionDataGenerator、SynthText3D、UnrealText)
并自开源以来,引起了开发商的广泛关注,已有不少开发商投入到项目建设中,为内容做出了贡献。
干货很多。
现场课程
为了让开发商深入了解PadddleOCR开源包的更多内容,项目组准备了直播课程,现场技术解读与答疑,提供更丰富的“炼丹秘籍”,扫描下方海报二维码,填写问卷即可获得直播链在社区可以与百度资深研发工程师进行深入的技术交流。
体验一下吗?
看到这里,你心动了吗。此外,如果你真的想看,PaddleOCR提供在线Demo、Web版和手机终端。
如果有兴趣的话,把下面的传送门收起来,自己体验一下吧~
传输门:
项目地址:https://GitHub.com/PaddlePaddle/PaddleOCR
Web版Demo:https://www.paddlepaddle.org.cn/hub/scene/ocr
移动端Demo:
项目组为开发人员在百度脑EasyEdge上打开了基于费林轻量化推理引擎Paddle Lite实现的APP demo。安卓手机可以直接扫描代码:
iOS版由于证书限制,需要登录EasyEdge网页扫描体验:
https://ai.baidu.com/easyedge/app/openSourcefrom=paddlelite
-结束了