ICDAR2019 ReCTS task1 比赛总结

article/2025/5/16 3:52:50

ICDAR2019 ReCTS task1 比赛总结

  • 写在前面
  • 比赛介绍
  • 比赛方案
    • 数据集
    • 网络选择
    • 训练调参
  • 赛后总结

写在前面

这是自己的第一篇博客,拿来总结一下今年四月份的比赛——ICDAR 2019 ReCTS,同时记录一些自己的想法,方便以后回看。

比赛介绍

链接: 比赛信息.

这个比赛主要分为四个任务,字符识别,文本识别,文本检测,端到端识别。
我参与的是第一个任务,最终获得学生组第一(识别准确率94.73%)。

字符识别本质上就是一个分类任务,与大多数深度学习入门训练(如 MINIST手写数字识别,猫狗图片分类)并无太大差别。所以这篇博客主要是记录一些技巧以及细节(数据扩增,炼丹调参)。

比赛方案

数据集

比赛官方给的数据集就是街道上招牌里的字符图片,例如:
在这里插入图片描述
除了官方给的数据,我们通过指定字体和背景的方法生成了一些合成数据,例如:
在这里插入图片描述
在剔除了少量不合理类别之后,最终我们选择了4061类作为最终的分类目标,相当于对于官方给的数据集,选出对应标签是属于这4061类的字符图片。在合成数据集的时候,也是合成这4061类字符的图片。每个类别合成了150张图片(100张训练,50张验证)。对于官方数据集,我们通过分析发现各类字符的图片出现的次数非常不均衡:有2000类左右的字符,其对应图片只有两张甚至一张。所以为了解决这个数据不均衡的问题,我们对官方数据集做了处理:对于出现次数较多的字符,砍掉一部分图片,对于出现次数较少的字符,加入一部分合成数据集的图片作为补充。

最终,合成数据集作为预训练数据集,调整后的官方数据集作为finetune数据集。

网络选择

对于这个分类任务,因为残差神经网络在各种任务中的优异表现以及其易训练的特性,我们选择了ResNet50作为backbone,比赛期间我试过SE-Net(在ResNet50上加入了SE模块),但是在预训练的数据集(合成数据集)上的效果(训练相同的epoch达到的识别准确率以及模型最终收敛的识别准确率)都没有单纯的ResNet50效果好,所以最终还是选择了ResNet50。

训练调参

训练调参是个玄学环节。通常来说,我们只需要调整batchsize以及learning rate这两个参数就可以了,对于使用SGD优化算法来说,还可以调整momentum以及weight decay这两个参数。

此次比赛中,在确定了图像输入大小是32X32的前提下(这个大小一般也是试出来的,在试了64X64和32X32之后,发现32X32效果更好一些),通过调参发现batchsize设置为32的效果比64好(64的话一般就达到一块12G卡的上限了),这点我到现在也没想通。因为一般来说是在算力范围内,batchsize越大越好。momentum和weight decay没有作调整,选用0.9和5e-4。

最终的训练是先在合成数据集上预训练,模型收敛之后再在调整过的官方数据集上训练(训练过程中当验证loss不下降的时候将learning rate减小为原来的1/3,初始learning rate是0.001),最后再在原始的官方数据集上训练。(最后这一步是为了让模型见识尽可能多的贴近于官方测试集的图片,让模型“见多识广”)。

在官方测试集上我们还用了多模型集成的方法来获得最终结果。

赛后总结

先说不足之处吧:

  1. 由于这次比赛的数据集是街道上的招牌里的字符,其分布很容易产生不均衡(对于某些字,比如“小”,“汤”,在店名里会经常出现),我们这次的解决方案仅仅是对数据集做了筛选和补充,没有在算法层面上做处理(比如设置一些超参数来使得模型给予不常出现的样本更高的权重)。
  2. 合成数据集是通过指定字体和背景,再加上一些图像变换来生成的。采用GAN可以生成更贴近官方数据集的字符图片。
  3. 网络选择的是ResNet50,可能DenseNet等其他网络能有更好的表现,但是受限于算力和时间没有去尝试。
  4. 调参方面完全手动,算是小范围的grid search。最近在看了《EfficientNet》这篇论文之后,发现图像分辨率以及网络深度,宽度实际上可以用一定的理论支撑去进行调整。此外,这篇论文里面的EfficientNet-B0的架构是搜出来的,根据论文里面的描述,效果非常好(同样高的准确率,更少的参数量)。针对特定的数据集,采用搜索网络架构的方法可能可以找到更适合的网络。

在有以上诸多不足的情况下,拿了个学生组第一也是没有想到(最终的结果也比一些公司的高)。可能相较于其他参赛选手,我们方案胜在三个阶段的训练过程,其中在合成数据集上的预训练让模型的泛化性增强了一丢丢,第二个阶段的训练也让模型稍稍克服了一些数据不均衡的问题。调参过程也让模型的准确率尽可能高了(相较于那些没有反复调参的选手)。还有就是最终的多模型集成对于结果可能也提高了那么一两个点。

总而言之,一次既锻炼自己同时也挣得1500刀的比赛,都是要恰饭的嘛。


http://chatgpt.dhexx.cn/article/9GaEkmfq.shtml

相关文章

ICDAR 2019比赛及数据集下载-任务-任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战

ICDAR 2019比赛及数据集下载-任务- https://rrc.cvc.uab.es/?ch13&comtasks 任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战 数据集和注释 数据集将具有1000个完整的扫描收据图像。每个收据图像包含大约四个关键文本字段,例如商品名称,单…

【OCR】EAST算法数据处理——ICDAR_2015数据集

背景 下载地址:https://rrc.cvc.uab.es/?ch4&comdownloads 注意:该数据为开源数据,但需要注册一个账号,简单注册下即可下载; 介绍:用于文本检测任务,数据包含1000张训练样本以及500张测…

ICDAR 2019表格识别论文与竞赛综述(上)

ICDAR 2019表格识别论文与竞赛综述(上) 表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为…

ICDAR文本检测的评价方法

目录 简要介绍 文件准备 代码注释 简要介绍 具体的介绍可以看这几篇文章,讲解的很详细了,本文主要参考这三篇文章并对官方给的代码做一些解释 ICDAR2013文本检测算法的衡量方法(一)Evaluation Levels ICDAR2013文本检测算法…

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上…

TencentOCR 斩获 ICDAR 2021 三项冠军

作者:TencentOCR团队 全球 OCR 最顶级赛事,TencentOCR 以绝对领先优势斩获三冠,腾讯技术再扬威名! 一、竞赛背景 2021 年 9 月,两年一届的 ICDAR 竞赛落下帷幕,这是文字识别(OCR)领域…

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过). 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化(ICDAR 2015)及训练 目录 ABCNet数据集转化(ICDAR 2015)及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021(International Conference on Document Analysis and Recognition)于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议,每两年举办一次,涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生,它们似乎都是属于研究、讨论人工智能的一种会议,但其实它们的区别还是挺大的,具体来说,它们主要有以下的区别: 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美 ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作,专注于数据领域报道,并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊,聚焦产业转型研究,理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日,“聚力远谋,创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕,来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂,共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤,君子以厚德载物。 坤:元,亨,利牝马之贞。 君子有攸往,先迷后得主,利;西南得朋,东北丧朋。 安贞,吉。 牝马指母马。为什么不用母牛?因为…

坤卦

坤卦 坤卦三偶六断,纯阴虚阙之象。“坤”字古文作“巛”,“顺”字偏旁及“川”字,亦“巛”之象形也,故《象传》曰“乃顺承天”,又曰“柔顺利贞”。《文言传》曰:“坤道其顺乎?”《系辞传》曰&am…

数坤科技:AI在医疗影像的应用和探索

机器之心编辑部 3 月 23 日,在机器之心 AI 科技年会上,数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》,对 AI 医疗影像行业进行了全面的介绍。 以下为危夷晨在机器之心 AI 科技年会上的演讲内容,机器之心…