TencentOCR 斩获 ICDAR 2021 三项冠军

article/2025/5/16 8:36:01

03db67197dab6e06c4165162effaff6c.gif

作者:TencentOCR团队

全球 OCR 最顶级赛事,TencentOCR 以绝对领先优势斩获三冠,腾讯技术再扬威名!

一、竞赛背景

2021 年 9 月,两年一届的 ICDAR 竞赛落下帷幕,这是文字识别(OCR)领域全球最顶级赛事。TencentOCR 团队在本届比赛中参加了视频文字识别竞赛,并包揽该赛道全部 3 项冠军,成绩遥遥领先。这也是继 2017 年团队勇夺 4 项官方认证冠军[1]、2019 团队勇夺 7 项冠军后[2],再创佳绩,同时也标志着腾讯 OCR 技术稳居国际第一流水准。

国际文档分析与识别大会 ICDAR( International Conference on Document Analysis and Recognition)自 1991 年开始,每两年一届,今年为第十六届。自 2003 年大会开始设立技术竞赛,ICDAR 竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点。与赛后非正式刷榜不同,ICDAR 官方认证的正式竞赛采用全新数据集,且赛期内不公布参赛团队信息,限制提交时间和次数,属于高难度“盲打”,吸引国内外众多队伍参赛。

二、赛题介绍

ICDAR SVTS(场景视频文本定位)竞赛由海康威视、复旦大学和浙江大学联合出题,主办方提供了涵盖 21 个室内外真实场景的 129 段视频。SVTS 竞赛设置了 3 个任务:视频文本检测、视频文本跟踪、视频文本端到端识别。由于环境干扰(相机抖动、运动模糊、光照变化等),从视频帧中检测、跟踪、识别文本比静态图片 OCR 任务需要更高的鲁棒性,挑战性极高。

f469013147311656de5f08caf53c3503.png
(图1)ICDAR-SVTS竞赛示意帧

三、竞赛成绩

在 SVTS 竞赛的 3 个任务中,腾讯 OCR 以大幅度领先获得全部冠军。

任务 1 视频文本检测

任务 1 旨在获取视频帧中的文本框位置,每个文本框的 GT 由 4 个坐标点组成,评价指标是 F-score,团队以领先第二名 3.43%的成绩取得冠军。

cd18ecc62616a018487c46cc3b4b2e29.png
(图2)视频文本检测:冠军证书

任务 2 视频文本跟踪

任务 2 旨在跟踪视频中所有文本流,将帧与帧之间属于同一个文本的检测框聚合起来,评价指标是 ATA,我们以领先第二名 5.62%的成绩取得冠军。

c8a829f52f8901da191cc39d7d5fd9d3.png
(图3)视频文本跟踪:冠军证书

任务 3 视频文本端到端识别

任务 3 旨在评估视频文本识别的端到端性能,任务要求在每一帧上正确检测文本,在视频帧上正确跟踪,并在序列级别正确识别,评价指标是 F-score,我们以领先第二名 5.53%的成绩取得冠军。

59888427559a7bcb7888d685141c8c58.png
(图4)视频文本端到端识别:冠军证书

四、算法介绍

1. 文字检测

针对复杂自然场景下的视频文本检测任务,团队在 Cascade Mask R-CNN 算法的基础上设计了一种自顶向下实例分割的多方向文本的检测方法。在特征提取网络部分,我们训练多个主干网络,包括 HRNet-W48,Res2Net101,Resnet101 和 SENet101,并使用了 Syn-BN 和可变形卷积网络 DCN 等技术来增强特征。同时,经典的 RPN 网络替换成为 GA-RPN 的方法提升模型性能。为更好解决多尺度的问题,在模型 neck 部分我们尝试了 PAFPN、BiFPN 和 FPG 等一系列特征金字塔网络。在 R-CNN 部分,我们针对任务重新设计了 IoU 阈值和每个 stage 的权重,采用了 4 个级联的网络来精准预测文字位置。此外,借鉴 Double-Head R-CNN 的思想,我们把 R-CNN 网络的回归和分类两个网络分支解耦开。

为进一步增强模型的性能,我们引入更多的监督信息让网络去学习,首先增加了一个基于 CTC 的文字识别网络分支进行端到端的训练让模型更好地学习文字特征,其次引入一个全局的语义分割网络分支来强化特征的表示。最后,模型基于网络输出的 mask 分割结果采用多边形非极大抑制(Soft Polygon NMS)来输出文本区域框。在网络前向预测阶段,我们发现模型受视频的模糊程度影响很大,设计了一种多尺度+翻转+模糊增加的 TTA 策略,有效提升了测试的准召指标。同时,在将检测结果传给后续文字跟踪和端到端识别任务的同时,我们也使用这两个任务的输出结果设计了检测框筛选算法来提升最后的精度。

b8f8f2b896460afa4af5e75601f8c3d6.png
(图5)文本检测算法

2. 文字跟踪

在文字跟踪方面,我们提出了一种基于 DeepSort 的多度量文本跟踪方法,使用 4 个不同的度量来计算每条轨迹与每个新检测框之间的匹配度,包括检测框匹配度,检测框表观相似度,文本相似度和一种新设计的检测框邻域相似度。这些度量被归一化加权求和用作当前检测框和已有轨迹之间的匹配损失函数,使用 Kuhn-Munkres 算法计算最优匹配。最后采用后处理和集成策略,通过替换邻近检测框,使得替换后轨迹文本稳定程度提升,来减少 ID-Switch 跟踪错误,最后自动移除低文本置信度的轨迹来提升精度。

6ed056396af6a260e5acf0209af9b487.png
(图6)视频文本跟踪算法

3. 端到端文字识别

在文字识别方面,我们采用了基于 CTC 和基于 2D Attention 的混合模型。我们的编码网络由卷积网络和上下文提取模块组成,我们首先通过 VGGNet、ResNet50/101、SEResNeXt 等卷积网络提取视觉特征,然后通过 BiLSTM、BiGRU 和 Transformer 提取上下文信息。针对基于 CTC 的算法,我们还开发了可端到端训练的内嵌式语言模型。在端到端阶段,我们采用多类识别算法对输入跟踪轨迹的所有文本进行预测,然后使用基于文本置信度和长度的方法集成并计算结果得分,取分数最高的结果作为轨迹的文本结果。最后,我们移除低分和包含无关字符的轨迹以提高最终精度。

a390ac9429a46c8828e8cacd1598bfba.png
(图7)文本端到端识别算法

五、总结

TencentOCR 团队是腾讯内部专业研发 OCR 技术的团队,于 2021 年 TEG OCR 联合公司兄弟团队成立了 TencentOCR Oteam,团队在文本识别领域上已经深耕细作多年,自研的基于深度学习方法的文本检测与识别技术处于业界领先水平,已在全球最权威 ICDAR 竞赛中连续三届斩获共 14 项官方认证冠军。国际顶级竞赛是技术水平的试金石和腾讯技术影响力的证明,同样重要的还有技术应用与落地。腾讯 OCR 技术,凭借高精准度、高稳定性以及专业服务伙伴的理念,已支持公司内所有 BG 的数百个业务场景,如腾讯广告、微信、QQ、腾讯云、腾讯视频、腾讯信息流产品、腾讯会议等,并获得广泛好评。未来,团队将继续在 TencentOCR Oteam 的框架下,深度协同,保持腾讯 OCR 在业界的领先水平。

f62e5c5c8a845ad48005af98013d82c3.png
(图8)TencentOCR参赛团队

参考目录:

  1. https://mp.weixin.qq.com/s/_HmsLW4Juwo6RzjlRe6MhA

  2. https://mp.weixin.qq.com/s/ai2ZJdTuG9pD5cijssx6SQ

欢迎点击下方视频

关注腾讯程序员视频号


http://chatgpt.dhexx.cn/article/LGXEJSS6.shtml

相关文章

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过). 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化(ICDAR 2015)及训练 目录 ABCNet数据集转化(ICDAR 2015)及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021(International Conference on Document Analysis and Recognition)于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议,每两年举办一次,涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生,它们似乎都是属于研究、讨论人工智能的一种会议,但其实它们的区别还是挺大的,具体来说,它们主要有以下的区别: 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美 ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作,专注于数据领域报道,并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊,聚焦产业转型研究,理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日,“聚力远谋,创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕,来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂,共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤,君子以厚德载物。 坤:元,亨,利牝马之贞。 君子有攸往,先迷后得主,利;西南得朋,东北丧朋。 安贞,吉。 牝马指母马。为什么不用母牛?因为…

坤卦

坤卦 坤卦三偶六断,纯阴虚阙之象。“坤”字古文作“巛”,“顺”字偏旁及“川”字,亦“巛”之象形也,故《象传》曰“乃顺承天”,又曰“柔顺利贞”。《文言传》曰:“坤道其顺乎?”《系辞传》曰&am…

数坤科技:AI在医疗影像的应用和探索

机器之心编辑部 3 月 23 日,在机器之心 AI 科技年会上,数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》,对 AI 医疗影像行业进行了全面的介绍。 以下为危夷晨在机器之心 AI 科技年会上的演讲内容,机器之心…

周易卦爻解读笔记——大壮

第三十四卦大壮 雷天大壮 震上乾下 大壮卦为消息卦,象征阳盛阴衰。 大壮卦是遁卦的覆卦,序卦传【物不可以终遁,故受之以大壮】 首先说明壮这个字: 武士操戈而立,可以理解为强壮,更多的是要理解为打击&…

重庆大学计算机学院新生综合,重庆大学

随着如火如荼的军训落下帷幕,金秋十月天朗气清,重庆大学2016级本科新生同学正式开始了他们在重庆大学充实多彩的学习生活。2016年10月13日,重庆大学计算机学院领导老师与全体新生见面会在虎溪校区理科楼报告厅隆重召开。学院出席本次大会的主…

世坤投资大学:欲提供数据科学硕士学位的对冲基金

全文共1843字,预计学习时长6分钟 图源:unsplash 随着数据科学、人工智能和机器学习的普及,很多人开始对这一领域产生兴趣,与之相关的学习资源也同比例增长。这些资源来源广泛,既包括YouTube、Github和博客网站等多功能平台上的免费内容,亦包括慕课和在线纳米学位等相对…

周易卦爻解读笔记——坤卦

第二卦坤 坤为地 坤上坤下 坤:元,亨,利牝马之贞。君子有攸往,先迷后得主,利西南得朋,东北丧朋。安贞,吉。 坤卦,初始通达,利于向母马一样正固(意为一直顺从…

官网平台类产品的设计挖掘

参考图例:架构图素材库 -图标库 ToB 产品的官网设计,业务开始综合考虑产品设计在内外各平台上的一致性、高价值运营转化模块的凸显,以及上线后的用户满意度等运营数据。信息传达模式、信息分层逻辑、业务对设计理念的理解成本,成为…

抖音上坤之大强之作是什么意思

抖音坤之大强之作什么意思?最近抖音频繁出现这个词,谢广坤是谁?有很多的网友们都想知道坤之大强之作什么意思,感兴趣的网友们,下面就跟着小编一起来看看吧。 坤之大强之作什么意思 看过电视剧《乡村爱情》的人都知道,谢广坤的…