ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战

article/2025/5/16 4:10:14

ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=14&com=tasks

任务-ICDAR2019任意形状文本的鲁棒阅读挑战

我们提议的比赛包括三个主要任务:

  1. 场景文字检测,
  2. 场景文字识别
  3. 场景文字发现。

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成图像作为本次比赛的额外训练数据,而不允许公开访问的私人数据不被使用。

基本事实格式

任务1和3

我们按照命名约定创建一个覆盖数据集中所有图像的JSON文件,以结构化格式存储基本事实:

gt_ [image_id]其中image_id表示数据集中图像的索引。

在JSON文件中,每个gt_ [image_id]对应于一个列表,其中列表中的每一行对应于图像中的一个单词,并以以下格式给出其边界框坐标,转录,语言类型和难度标志:

{

“ gt_1”:[{“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans1”,“语言”:“拉丁语”,“难以辨认“:false},

                …

                {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans2”,“语言”:“中文”,“难以辨认”:false}] ,

“ gt_2”:[

                {“ points”:[[x1,y1],[x2,y2],…,[xn,yn]],“ transcription”:“ trans3”,“ language”:“ Latin”,“难以辨认”:false}] ,

……

}

其中“点”中的x1,y1,x2,y2,...,xn,yn是多边形边界框的坐标,可以是4、8、10、12个多边形顶点。“转录”表示每个文本行的文本,“语言”表示转录的语言类型,可以是“拉丁”和“中文”。与COCOtext [3]和ICDAR2015 [2]相似,当设置为“ true”时,“模糊性”表示“无关”文本区域,这不会影响结果。

任务2

给定的输入将是带有相应文本实例的裁剪图像块,以及相对的多边形空间坐标。与任务1相似,对于数据集中的所有图像,我们按照命名约定创建一个JSON文件以结构化格式存储基本事实:

gt_ [image_id]其中image_id表示数据集中图像的索引。

{

“ gt_1”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans1”,“语言”:“拉丁语”,“难以辨认“:false}],

“ gt_3”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans2”,“语言”:“拉丁语”,“难以辨认“:false}],

“ gt_3”:[{“点”:[[x1,y1],[x2,y2],...,[xn,yn]],“转录”:“ trans3”,“语言”:“拉丁语”,“难以辨认“:false}],

……

}

注意,多边形坐标是作为可选信息提供的。参与者可以自由决定是否使用该信息。

图1:ArT数据集的示例图像。红色的装订线与多边形的地面真实顶点一起形成。该数据集中的所有图像均以“ jpg”后缀保存。

 

图2. ArT的多边形地面真值格式

 

图2说明了所有提到的属性。值得指出的是,这种多边形地面实况格式与所有以前的RRC不同,后者使用了轴对齐的边界框[1、3]或四边形[2]作为唯一的地面实况格式。两者分别具有两个和四个顶点,这被认为不适用于ArT中面向任意方向的文本实例,尤其是弯曲的文本实例。中文和拉丁文字均在ArT中进行了注释。遵循MLT数据集的做法[5],我们用行级粒度注释中文脚本,并以单词级粒度注释拉丁文脚本。

在此处下载提交示例:ArT-gt-example.zip

任务1:场景文本检测

此任务的主要目的是在给定输入图像的情况下检测每个文本实例的位置,这与所有先前的RRC场景文本检测任务相似。此任务的输入严格限制为仅图像,不允许任何其他形式的输入来在检测文本实例的过程中帮助模型。

  • 输入:场景文字图像
  • 输出:每个文本实例在拉丁语脚本的单词级别和在中文脚本的行级别的空间位置。

结果格式

所有提交结果的命名应遵循以下格式:res_ [image_id]。例如,与输入图像“ gt_1.jpg”相对应的文本文件的名称应为“ res_1”。要求参与者在单个JSON文件中提交所有图像的检测结果。提交文件格式如下:

{

“ res_1”:[

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c},

                …

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],

“ res_2”:[

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。同样,n是顶点的总数(可以是不固定的,在不同的预测文本实例之间可以变化),而c是预测的置信度得分。为了鼓励尝试此挑战的不同方法,我们为参与者提供了一个默认包装脚本,这些参与者的模型将最终生成遮罩作为其最终输出,并在将其结果提交进行评估之前将其转换为多边形顶点。参与者可以自由使用并鼓励他们使用自己的方法将其遮罩输出转换为多边形顶点。

在此处下载提交示例:ArT-detection-example.zip

评估指标

对于T1,我们遵循CTW1500 [4]采用基于IoU的评估协议。IoU是基于阈值的评估协议,默认阈值设置为0.5。我们将在0.5和0.7阈值上报告结果,但只有低于0.5的H均值将被视为每个提交模型的最终分数,并用作提交排名的目的。为了确保公平,竞争对手需要为每次检测提交可信度评分,因此我们可以迭代所有可信度阈值以找到最佳的H均值。同时,在有多个匹配项的情况下,我们仅考虑具有最高IOU的检测区域,其余匹配项将被视为误报。精度,召回率和F分数的计算如下:

LSVT-equation1.jpg

 

其中TP,FP,FN和F分别表示真阳性,假阳性,假阴性和H均值。

所有难以辨认的文本实例和符号都标记为“无关”区域,这不会对评估结果有所帮助。

任务2:场景文本识别

该任务的主要目的是识别裁剪图像补丁中的每个字符,这也是以前RRC中的常见任务之一。考虑到与拉丁文字相比,中文文字识别的研究还不成熟,我们决定将T2进一步细分为两个子类别:

  1. T2.1-仅拉丁文字,
  2. T2.2-拉丁文字和中文文字。

我们希望这样的划分可以使非汉语的人更容易完成这项任务,因为我们在这场比赛中要解决的主要问题是对任意形状文本的挑战。

  • 输入:裁剪的带有文本实例的图像补丁。
  • 输出:一串预测字符。

结果格式

对于T2,要求参与者在单个JSON文件中提交所有图像的预测成绩单:

{

“ res_1”:[{“ transcription”:“ trans1”}],

“ res_2”:[{“ transcription”:“ trans2”}],

“ res_3”:[{“ transcription”:“ trans3”}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意:无论脚本如何,参与者都只需要提交一份即可。我们将按照拉丁和混合(拉丁和中文)两种类别评估所有提交的内容。在评估拉丁文字的识别性能时,所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例:  ArT_recognition_example.zip

评估指标

对于T2.1,不区分大小写的单词准确性将作为主要的挑战度量标准。除此之外,所有针对文本斑点评估的标准实践(例如i)对于包含符号的地面真相,我们将在中间考虑符号ii),但在基本事实和陈述的开头和结尾都删除符号(!?。:: *“()·[] /'_)。

对于T2.2,我们采用归一化编辑距离度量(特别是1-NED)和不区分大小写的单词精度。1-NED还用于ICDAR 2017竞赛ICPR-MTWI [6]。尽管将发布两个指标的结果,但仅将1-NED视为正式排名指标。归一化编辑距离(NED)的公式如下:

Formula.png

其中d(:)代表的Levenshtein距离,和si.jpg 与widehat_si.jpg 表示字符串的预测文本行,并在区域中的对应的基础事实。注意,widehat_si.jpg在所有地面真实位置上都计算了相应的地面真实,以选择最大IoU中的si.jpg 一个作为预测对。N是“配对” GT和检测到的区域的最大数量,其中包括单例:与任何检测都不匹配的GT区域(与NULL /空字符串配对)和与任何GT区域不匹配的检测(与NULL /空配对)空字符串)。 

之所以选择1-NED作为T2.2的官方排名度量标准,是因为中文脚本比拉丁文字具有更多的词汇量,而且通常还有更长的词汇量,这使得单词准确度指标过于苛刻,无法正确评估T2.2。在1-NED评估协议中,将以一致的方式对待所有字符(拉丁文和中文)。

注意:为避免注释中的歧义,我们在评估前执行某些预处理步骤:1)英文字母不区分大小写;2)繁体字和简体字被视为同一标签;3)空格和符号将被删除;4)所有难以辨认的图像均不会影响评估结果。

任务3:场景文字识别

该任务的主要目的是以端到端的方式检测和识别所提供图像中的每个文本实例。与RRC 2017相似,将提供通用词汇表(9万个常用英语单词)作为此挑战的参考。与T2相同,我们将T3分为两个子类别:

  1. T3.1拉丁文字仅能识别文字,
  2. T3.2拉丁和中文脚本文本识别。 
  • 输入:场景文字图像
  • 输出:拉丁文字的每个文本实例在单词级别的空间位置,中文脚本的每个文本实例的空间位置以及每次检测的预测单词的空间位置。

结果格式

最后,要求参与者以以下格式在一个JSON文件中提交所有图像的结果:

{

“ res_1”:[

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans1”},

                …

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans2”}],

“ res_2”:[

                {“点”:[[x 1,y 1 ],[x 2,y 2 ],…,[x n,y n ]],“信心”:c,“转录”:“ trans3”}],

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意:无论脚本是什么,参与者都只需要提交一次即可。我们将按照拉丁和混合(拉丁和中文)两种类别评估所有提交的内容。在评估拉丁文字的识别性能时,所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例:ArT-end-to-end-result-example.zip

评估指标

对于T3,我们首先通过计算检测结果与相应的地面真相交点(IoU)来进行评估。IoU值高于0.5的检测区域将与识别基础事实(即特定文本区域的成绩单基础事实)匹配。同时,在有多个匹配项的情况下,我们仅考虑具有最高IOU的检测区域,其余匹配项将被视为误报。然后,我们将使用不区分大小写的单词准确性H均值和1-NED(以1-NED作为官方排名)评估T3.1的预测转录(而该评估中的中文区域将被忽略)。与T2.2相似,我们将同时发布T3.2的度量标准(1-NED和不区分大小写的单词准确性),

注意:识别部分的预处理步骤与任务2相同。

 

参考文献

  1. Karatzas,Dimosthenis等。“ ICDAR 2013健壮的阅读比赛。” 文件分析与识别(ICDAR),2013年第12届。IEEE,2013年。
  2. Karatzas,Dimosthenis等。“ ICDAR 2015强劲阅读竞赛。” 文档分析与识别(ICDAR),2015年第13届。IEEE,2015年。
  3. 戈麦斯,劳尔等人。“ ICDAR2017对COCO-Text的强大阅读挑战。” 第14届IAPR国际文件分析与识别会议(ICDAR)。IEEE,2017年。
  4. 于良,刘,连文,金,等。“通过横向和纵向序列连接的弯曲场景文本检测。” 模式识别,2019年。
  5. Nayef,Nibal等。“ ICDAR2017在多语言场景文本检测和脚本识别-RRC-MLT上的强大阅读挑战。” 文件分析与识别(ICDAR),2017年第14届IAPR国际会议。卷 1. IEEE,2017年
  6. 石宝光等。“ ICDAR2017野外阅读中文比赛(RCTW-17)。” 文件分析与识别(ICDAR),2017年第14届IAPR国际会议。卷 1. IEEE,2017年。

=======

下载-ICDAR2019任意形状文本的鲁棒阅读挑战

ArT数据集将包含10,166张图像。它分为具有5,603张图像的训练集和4,563张图像的测试集。

训练数据和测试集的第一部分也可以从百度镜像中找到:  ArT数据集

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,MSRA-TD500,COCO-Text和MLT。)或合成图像作为本次比赛的额外训练数据,而不允许公众访问的私人数据不被使用

 

注册确认

1)要确认是否参加了RRC竞赛2019的ICDAR-2019 ArT挑战,请发送电子邮件至  ICDAR-2019@baidu.com  ,标题为“ 参加ICDAR-2019 ArT挑战 ” 
2)您参与或提交结果,这是一种兴趣表达。您可以参加挑战的一项或多项任务。没有必要参加所有任务。

 

训练套

  • 对于任务1和任务3
    • train_images.tar.gz  (1.6G)-5,603张图片
    • train_labels.json  (41M)- 用于 5,603张图像的地面真实文件
  • 对于任务2
    • train_task2_images.tar.gz  (439M)-50,029图片
    • train_labels_task2.json  (35M)- 用于 50,029张图像的地面真实文件

测试集

  • 测试集的第一部分:
    • 对于任务1和任务3
      • test_part1_images.tar.gz  (1.4G)-2271张图片
    • 对于任务2
      • test_part1_task2_images.tar.gz  (439M)-24836图片
  • 测试集的最后一部分:
    • 对于任务1和任务3
      • test_part2_images.tar.gz (1.4G) -2292张图片
    • 对于任务2
      • test_part2_task2_images.tar.gz  (467M)-27795  图片

注意:  测试集的第一部分和第二部分的结果应一起 提交,评估结果将在4月30日之后提供 。

         建议使用OpenCV 3.1进行图像处理。


http://chatgpt.dhexx.cn/article/yRXdFHnl.shtml

相关文章

ICDAR 2019比赛及数据集下载-任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战

ICDAR 2019比赛及数据集下载 https://rrc.cvc.uab.es/?ch16&comtasks 任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战 LSVT数据集将包含450、000张带有文本的图像,这些文本可在街道上自由捕获,例如,店面和地标。其中50…

ICDAR2019 ReCTS task1 比赛总结

ICDAR2019 ReCTS task1 比赛总结 写在前面比赛介绍比赛方案数据集网络选择训练调参 赛后总结 写在前面 这是自己的第一篇博客,拿来总结一下今年四月份的比赛——ICDAR 2019 ReCTS,同时记录一些自己的想法,方便以后回看。 比赛介绍 链接: 比…

ICDAR 2019比赛及数据集下载-任务-任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战

ICDAR 2019比赛及数据集下载-任务- https://rrc.cvc.uab.es/?ch13&comtasks 任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战 数据集和注释 数据集将具有1000个完整的扫描收据图像。每个收据图像包含大约四个关键文本字段,例如商品名称,单…

【OCR】EAST算法数据处理——ICDAR_2015数据集

背景 下载地址:https://rrc.cvc.uab.es/?ch4&comdownloads 注意:该数据为开源数据,但需要注册一个账号,简单注册下即可下载; 介绍:用于文本检测任务,数据包含1000张训练样本以及500张测…

ICDAR 2019表格识别论文与竞赛综述(上)

ICDAR 2019表格识别论文与竞赛综述(上) 表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为…

ICDAR文本检测的评价方法

目录 简要介绍 文件准备 代码注释 简要介绍 具体的介绍可以看这几篇文章,讲解的很详细了,本文主要参考这三篇文章并对官方给的代码做一些解释 ICDAR2013文本检测算法的衡量方法(一)Evaluation Levels ICDAR2013文本检测算法…

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上…

TencentOCR 斩获 ICDAR 2021 三项冠军

作者:TencentOCR团队 全球 OCR 最顶级赛事,TencentOCR 以绝对领先优势斩获三冠,腾讯技术再扬威名! 一、竞赛背景 2021 年 9 月,两年一届的 ICDAR 竞赛落下帷幕,这是文字识别(OCR)领域…

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过). 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化(ICDAR 2015)及训练 目录 ABCNet数据集转化(ICDAR 2015)及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021(International Conference on Document Analysis and Recognition)于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议,每两年举办一次,涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生,它们似乎都是属于研究、讨论人工智能的一种会议,但其实它们的区别还是挺大的,具体来说,它们主要有以下的区别: 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美 ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作,专注于数据领域报道,并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊,聚焦产业转型研究,理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日,“聚力远谋,创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕,来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂,共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤,君子以厚德载物。 坤:元,亨,利牝马之贞。 君子有攸往,先迷后得主,利;西南得朋,东北丧朋。 安贞,吉。 牝马指母马。为什么不用母牛?因为…