技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

article/2025/5/16 3:25:23

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上斩获第一。

OCR(Optical Character Recognition,光学字符识别)技术作为计算机视觉领域一个重要分支。其主要包括三大方面,文本检测、文本识别和视觉信息抽取。文字检测是通过OCR算法定位图像中文字,一般是通过四边或者矩形框表示文字的位置。文字识别是通过识别算法或者模型,将给定的文字片段图像中的文字通过字符串的形式转写出来。而视觉信息抽取则是将图像中人们定义的关键信息抽取出来,比如姓名,性别,电话号码等。360数科希望通过分享在文本识别和语言纠错方面的探索和总结,能对业界带来一些帮助或启发。

  1. SROIE2019赛事介绍

在ICDAR2019 Robust Reading Competitions的6个赛道上[1~6],SROIE2019更关注商超小票文本行检测、识别和信息抽取,这也是OCR领域中目前的难点所在,ICDAR 竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点,吸引国内外众多队伍参赛。

1.1 赛事介绍

SROIE2019分为三个子任务:文本检测(要求在原图中给出文本区域的位置坐标)、文本识别      (在给定的文本区域裁剪图基础上,将其中的文字内容正确识别出来)、视觉信息抽取(抽取识别出的文本行中的关键信息,比如价格、日期等)。本次比赛我们专注于SROIE中的文本行识别任务,其评价指标采用F1 score评价模型性能。F1 score是召回率Recall和准确率Precision的调和平均值,这三者的计算方式如公式(1) (2) (3)所示。

其中,TP,FP,FN分别表示True Positive,False Positive以及False Negative。TP,FP,FN的界定是基于识别出来的文本行与给出来的GT逐个单词比较,完全正确判定识别正确。SROIR文本识别任务数据集包含33626张训练集和19385张测试集,其中训练集的标注格式是给出给定文本行图像及对应的文本,如图1所示[1]

图1 训练集数据样张

1.2 赛事难点

  1. 文本行字体模糊不清。官方给出的比赛数据集,均来自商超结算小票扫描图像,由于小票均为机打且存放时间过长,导致扫描出来的文本行存在较为严重的磨损和缺失,字体笔画不完整等情形,这给我们OCR识别算法带来很大挑战。
  1. 文本行图像出现弯曲。给出的文本行图像中出现较大比例的弯曲,现今主流文本行识别算法对水平文本识别较为鲁棒,弯曲文本行识别是OCR识别业内难点。
  1. 标注歧义。给出来的文本行在对应的文本图像中根本不存在、空格标注错误以及形近字标注错误,这给算法的泛化性带来了很大的冲击。
  1. 技术方案

算法,数据和算力是推动深度学习往前演进的三驾马车,本小节我们分别就上述三大块进行详细介绍,以及针对1.2提到的赛事难点提出我们的解决方案。针对SROIE中的文本行识别,首先我们采用CRNN[7]技术方案,并对CRNN中的Encoder和Decoder部分做了大量分析和比较实验,得到了一个非常不错的baseline模型。其次,针对本次文字模糊不清问题,我们生成了近5000W的数据集并在该数据集上训练得到一个预训练模型,基于该预训练模型进行finetune,模型大幅提升了5.4%。最后针对文本行弯曲问题我们提出了基于tps+unet自学习的预处理模块,模型进一步提升了2.6%。通过以上技术方案的优化我们最终提交的成绩中Recall,Precision和F1 Score分别达到了97.68%97.79%97.74%,这3个评价指标均排名第一。此外我们还在语言纠错模型、loss和训练策略的选择上进行了一些方案的探索,给最终模型效果带来了一定的提升。

2.1 CRNN模型简介

图2 CRNN架构图

对于文本识别模型,我们参照CRNN将模型的主体分为了两个部分。分别为对图像数据进行特征编码的Encoder(对应上中的CNN层)以及对文本序列进行解码的Decoder(对应上图中Recurrent Layers和Transcription Layers)。

对于Encoder,我们试验了当前OCR技术中主流的MobileNet[8],EfficientNet[9],ResNet[10]等。最终我们选择了在表现与参数量方面都出色的ResNet并对不同层的ResNet进行了实验。

对于Decoder,其可进一步分为对图像切片序列到文本序列进行转换的部分与对文本序列进行解码输出的部分。对于第一部分,我们实验了当前主流的序列模型,如Transformer[11],LSTM[12]等。最终,我们选择了在表现与稳定性方面都更为出色的BiLSTM[13]。不同于普通的LSTM,BiLSTM可以捕捉序列双向的文本信息,该特性与本次比赛数据所呈现出的富有语义的特点相吻合。

对于Decode的第二部分,我们实验了CTC[14]与受时下热门的Transformer等模型的启发所推出的Attention[15]这两种方式。通过实验结果,我们发现了CTC在长文本情况下的表现较为出色,而Attention对于短文本的处理表现得更为优异。针对本次比赛数据文本长度分布方差大的特点,我们分别尝试了CTC与Attention两种模型。

2.2 模型优化

2.2.1 数据预处理

本次比赛的数据为文本行图像,其中每条数据的尺寸都有所不同。为此,我们对所有图像的尺寸进行对齐以保证模型输入的一致性。通过对整体数据集的尺寸分布进行分析,我们实验了不同的图像宽高以及Resize和Padding两种不同的对齐操作。最终采用Padding对齐方式,模型的F1 score提升3.2%。

2.2.2 模型前置预处理模块

本次比赛的图像数据具有模糊,对比度低等特点。为此,我们通过对图像进行增强以保证网络输入图像的清晰性。我们选择使用U-Net[16]网络以自动地学习出适应于整体模型的图像增强方式。通过与传统的图像显著化以及超分辨率网络等方法的对比试验,采用的U-Net能自适应的学习出适合网络学习的图像增强方式。

图3 U-Net示意图

此外,本次比赛的部分图像在文本行处呈现出了倾斜的特质。相较于水平文本,倾斜文本的识别更具有挑战性。针对这一情况,我们采用了针对倾斜文本进行处理的TPS网络[17]。该网络可以预测出TPS矫正所需的K个基准点,并基于基准点进行TPS变换生成采样网格,最后对采样网格进行双线性插值,达到矫正文本的目的。

图4 TPS示意图

最终,输入图像数据在经过了U-Net自适应增强和TPS的矫正后,模型F1 score提升2.6%。

2.2.3 loss选择

针对文本识别任务形近字很难识别出来的问题,如"0"和"O"。我们采取了Center Loss[18],该损失函数可通过缩小各分类编码与其所属类别中心的距离以更好地对相似的类别作出区分。使用Center Loss后,模型F1 score提升0.6%

2.2.4 优化器选择

如上文所述,文本行识别模型由多个部分组成,同时每个部分的学习任务从数据领域(图像/文本)到数据格式(单条/序列)都有较大的差别。为此,我们选用了自适应的优化器Adadelta[19]来解决。在模型使用Adadelta训练到收敛后,在冻结了图像处理的Encoder参数的情况下,使用收敛较快的Adam[20]对Decoder部分的参数进行进一步的训练。使用上述策略后模型F1 score提升0.3%

2.3 超大规模数据集预训练模型训练

本次比赛中我们除了使用官方给出的33626张训练集外,还通过对各种字体,各个语料类别(数字/名称/语句)以及各个图片风格(磨损/倾斜/划线)的模拟,生成了数据集5000万张,使用20张V100显卡进行分布式训练,基于该预训练模型进行finetune,模型F1 score得到了大幅提升(5.4%),这也是本次比赛我们取得冠军的关键。

2.4 语言纠错模型

首先,我们融合训练attention模型和ctc模型。对于置信度较低的结果,我们认为识别错误的可能性较大,需要使用语言模型对其纠错。通过2.5的badcase分析我们可以看出,除了空格识别错误外,还有约56%的其它错误。因此我们额外训练了一个不含有空格的attention识别模型,并使用该模型的识别结果替换原有融合模型置信度较低的识别结果,尽可能避免空格对识别的干扰。然后,我们对soft-masked bert[21]进行了拓展,在Bi-GRU[22]错误检测网络中除了预测每个字符为错别字的概率外,还额外增加了该字符后需要添加字符的概率。若预测为错误,我们会根据概率将该字符的embedding与<mask>的embedding进行线性组合。若预测为添加,则会在该字符后直接添加<mask>的embedding。在bert纠错网络中,我们添加了<null>标签用于标识需要删除的字符。最后,我们基于badcase的分析生成了100万的训练数据,使用上述策略后,F1 score提升了0.7%

图5 soft-masked bert示意图

2.5 badcase分析

通过采用2.1~2.4的策略,我们的模型已经有了很大的提升。通过对验证集上的badcase分析,发现主要有如下几种:空格识别错误、等长样本识别错误和不等长样本识别错误。各错误占比情况如图6,其中空格识别错误占比达到了44%,其余两种错误分别是等长和不等长错误。以下对上述情形分别介绍并给出我们的解决方案。

图6 badcase分布图

第一,空格识别错误即模型没有将空格识别正确或者我们空格识别成其他字符,如下图。针对该情形我们人为地为语料赋予了很多空格。同时,为了解决空格距离的主观性,我们在往语料中插入空格时使用了不定长的空格以让模型学会对空格距离的把控。此外,我们统计了模型预测空格错误结果中空格前后的字符分布,并根据该分布控制空格在语料中插入的位置。

图7 空格识别示例

第二,等长错误即模型识别出来的结果与GT等长,但是存在部分字符识别错误情形,占比达总识别错误的33%,这类错误主要还是集中在形近字很难正确识别情形,如下图。GT为“1 Small Cone”,我们的模型识别为“1 Small C0ne”。为了解决这类成对的字符预测错误,我们统计了字符集合中常见的难区分字符对以及我们的模型所预测错误的字符对。通过成对的形式,我们将一条语料中的部分字符替换为其难分字符对中的字符,如"a0c"与"aOc",并将替换前与替换后的语料都加入我们的数据集中。通过成对的加入难区分字符语料,我们的模型预测结果大幅减少了字符分错的情况。此外,我们发现由于本次数据的文本行在裁剪时左右留白较少,这导致模型预测结果容易在开头与结尾处出错。为此,我们在选取替换字符时会加大开头与结尾位置的权重。

图8 等长识别错误

第三,不等长错误即模型识别出来的结果与GT不等长。这里面主要集中在标注错误、文本行过长和样本极不均衡导致。针对文本行过长问题,我们对部分语料选取少量字符进行人为的重复并输入到模型训练,以此让模型获得一定的去重能力。针对类别不均衡问题,我们在生成语料抽取字符时,对低频字符赋予了更大的权重,高低频字符的出现比率提升到了10:1,更符合实际环境下的语料情况。

  1. 总结与展望

计算机视觉在金融领域的应用主要包括人脸识别、活体检测、OCR、AI数字人和图像篡改等。通过本次挑战赛在某种程度上验证了我们OCR算法的有效性,以及对我们现有算法进行查漏补缺。目前OCR在360数科内部落地的业务场景主要包括学历认证、执业证书认证、票据识别、行驶证识别、驾驶证识别和营业执照等,另外我们还针对上述业务场景开发了配套的图像反欺诈识别算法。展望未来,计算机视觉团队将持续跟进业内最新动态以保持技术的先进性,来更好的服务公司业务团队。

  1. 引用

[1] Huang Z, Chen K, He J, et al. Icdar2019 competition on scanned receipt ocr and information extraction[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1516-1520.

[2] Y. Sun, J. Liu, W. Liu, J. Han, E. Ding, “Chinese Street View Text: Large-scale Chinese Text Reading with Partially Supervised Learning”, in Proc. of ICCV 2019.

[3] Ali Furkan Biten, Ruben Tito, Andres Mafla, Lluis Gomez, Marçal Rusiñol, Ernest Valveny, C.V. Jawahar, Dimosthenis Karatzas, "Scene Text Visual Question Answering", ICCV 2019.

[4] C. Chng, Y. Liu, Y. Sun, et al, “ICDAR 2019 Robust Reading Challenge on Arbitrary-Shaped Text-RRC-ArT”, in Proc. of ICDAR 2019.

[5] Zhang R, Zhou Y, Jiang Q, et al. Icdar 2019 robust reading challenge on reading chinese text on signboard[C]//2019 international conference on document analysis and recognition (ICDAR). IEEE, 2019: 1577-1581.

[6] Nayef N, Patel Y, Busta M, et al. ICDAR2019 robust reading challenge on multi-lingual scene text detection and recognition—RRC-MLT-2019[C]//2019 International conference on document analysis and recognition (ICDAR). IEEE, 2019: 1582-1587.

[7] Shi, Baoguang, Xiang Bai, and Cong Yao. "An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition." IEEE transactions on pattern analysis and machine intelligence 39.11 (2016): 2298-2304.

[8] Howard A G, Zhu M, Chen B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.

[9] Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//International conference on machine learning. PMLR, 2019: 6105-6114.

[10] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[11] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[12] Graves A. Long short-term memory[J]. Supervised sequence labelling with recurrent neural networks, 2012: 37-45.

[13] Zhang, Shu, et al. "Bidirectional long short-term memory networks for relation classification." Proceedings of the 29th Pacific Asia conference on language, information and computation. 2015.

[14] Graves A. Connectionist temporal classification[M]//Supervised sequence labelling with recurrent neural networks. Springer, Berlin, Heidelberg, 2012: 61-93.

[15] Sun, Chao, et al. "A convolutional recurrent neural network with attention framework for speech separation in monaural recordings." Scientific Reports 11.1 (2021): 1-14.

[16] Ronneberger, Olaf, Philipp Fischer, and Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation." International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015.

[17] Shi, Baoguang, et al. "Robust scene text recognition with automatic rectification." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[18] Wen, Yandong, et al. "A discriminative feature learning approach for deep face recognition." European conference on computer vision. Springer, Cham, 2016.

[19] Zeiler, Matthew D. "Adadelta: an adaptive learning rate method." arXiv preprint arXiv:1212.5701 (2012).

[20] Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.

[21] Zhang S, Huang H, Liu J, et al. Spelling error correction with soft-masked BERT[J]. arXiv preprint arXiv:2005.07421, 2020.

[22] Wang Q, Xu C, Zhou Y, et al. An attention-based Bi-GRU-CapsNet model for hypernymy detection between compound entities[C]//2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2018: 1031-1035.


http://chatgpt.dhexx.cn/article/KRrdAEAy.shtml

相关文章

TencentOCR 斩获 ICDAR 2021 三项冠军

作者&#xff1a;TencentOCR团队 全球 OCR 最顶级赛事&#xff0c;TencentOCR 以绝对领先优势斩获三冠&#xff0c;腾讯技术再扬威名&#xff01; 一、竞赛背景 2021 年 9 月&#xff0c;两年一届的 ICDAR 竞赛落下帷幕&#xff0c;这是文字识别&#xff08;OCR&#xff09;领域…

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分&#xff0c;本文暂只看表格识别摘要&#xff08;不重要&#xff0c;想直接看表格识别部分可以跳过&#xff09;. 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而&#xff0c;科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild)&#xff0c;由Baoguang Shi等学者提出。RCTW主要是中文&#xff0c;共12263张图像&#xff0c;其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化&#xff08;ICDAR 2015&#xff09;及训练 目录 ABCNet数据集转化&#xff08;ICDAR 2015&#xff09;及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021&#xff08;International Conference on Document Analysis and Recognition&#xff09;于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议&#xff0c;每两年举办一次&#xff0c;涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生&#xff0c;它们似乎都是属于研究、讨论人工智能的一种会议&#xff0c;但其实它们的区别还是挺大的&#xff0c;具体来说&#xff0c;它们主要有以下的区别&#xff1a; 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号&#xff0c;发现CV技术之美 ICDAR&#xff08;International Conference on Document Analysis and Recognition&#xff09;是全球文档图像分析识别领域公认的权威学术会议&#xff0c;从1991年起每两年召开一次&#xff0c;今年是第17届&#xff0c;将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么&#xff1f; ICDAR是International Conference on Document Analysis and Recognition&#xff08;国际文档分析与识别会议&#xff09;的缩写。它每两年举办一次&#xff0c;由国际文献识别与文本处理委员会&#xff08;International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日&#xff0c;贝多财经了解到&#xff0c;数坤&#xff08;北京&#xff09;网络科技股份有限公司- B&#xff08;下称“数坤科技”&#xff09;在港交所的上市申请材料已“失效”&#xff0c;目前已经无法正常查看或下载。这代表着&#xff0c;数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作&#xff0c;专注于数据领域报道&#xff0c;并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊&#xff0c;聚焦产业转型研究&#xff0c;理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日&#xff0c;“聚力远谋&#xff0c;创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕&#xff0c;来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂&#xff0c;共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤&#xff0c;君子以厚德载物。 坤&#xff1a;元&#xff0c;亨&#xff0c;利牝马之贞。 君子有攸往&#xff0c;先迷后得主&#xff0c;利&#xff1b;西南得朋&#xff0c;东北丧朋。 安贞&#xff0c;吉。 牝马指母马。为什么不用母牛&#xff1f;因为…

坤卦

坤卦 坤卦三偶六断&#xff0c;纯阴虚阙之象。“坤”字古文作“巛”&#xff0c;“顺”字偏旁及“川”字&#xff0c;亦“巛”之象形也&#xff0c;故《象传》曰“乃顺承天”&#xff0c;又曰“柔顺利贞”。《文言传》曰&#xff1a;“坤道其顺乎&#xff1f;”《系辞传》曰&am…

数坤科技:AI在医疗影像的应用和探索

机器之心编辑部 3 月 23 日&#xff0c;在机器之心 AI 科技年会上&#xff0c;数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》&#xff0c;对 AI 医疗影像行业进行了全面的介绍。 以下为危夷晨在机器之心 AI 科技年会上的演讲内容&#xff0c;机器之心…

周易卦爻解读笔记——大壮

第三十四卦大壮 雷天大壮 震上乾下 大壮卦为消息卦&#xff0c;象征阳盛阴衰。 大壮卦是遁卦的覆卦&#xff0c;序卦传【物不可以终遁&#xff0c;故受之以大壮】 首先说明壮这个字&#xff1a; 武士操戈而立&#xff0c;可以理解为强壮&#xff0c;更多的是要理解为打击&…

重庆大学计算机学院新生综合,重庆大学

随着如火如荼的军训落下帷幕&#xff0c;金秋十月天朗气清&#xff0c;重庆大学2016级本科新生同学正式开始了他们在重庆大学充实多彩的学习生活。2016年10月13日&#xff0c;重庆大学计算机学院领导老师与全体新生见面会在虎溪校区理科楼报告厅隆重召开。学院出席本次大会的主…

世坤投资大学:欲提供数据科学硕士学位的对冲基金

全文共1843字,预计学习时长6分钟 图源:unsplash 随着数据科学、人工智能和机器学习的普及,很多人开始对这一领域产生兴趣,与之相关的学习资源也同比例增长。这些资源来源广泛,既包括YouTube、Github和博客网站等多功能平台上的免费内容,亦包括慕课和在线纳米学位等相对…

周易卦爻解读笔记——坤卦

第二卦坤 坤为地 坤上坤下 坤&#xff1a;元&#xff0c;亨&#xff0c;利牝马之贞。君子有攸往&#xff0c;先迷后得主&#xff0c;利西南得朋&#xff0c;东北丧朋。安贞&#xff0c;吉。 坤卦&#xff0c;初始通达&#xff0c;利于向母马一样正固&#xff08;意为一直顺从…

官网平台类产品的设计挖掘

参考图例&#xff1a;架构图素材库 -图标库 ToB 产品的官网设计&#xff0c;业务开始综合考虑产品设计在内外各平台上的一致性、高价值运营转化模块的凸显&#xff0c;以及上线后的用户满意度等运营数据。信息传达模式、信息分层逻辑、业务对设计理念的理解成本&#xff0c;成为…