ICDAR 2019比赛及数据集下载-任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战

article/2025/6/7 22:49:40

ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=16&com=tasks

任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战

LSVT数据集将包含450、000张带有文本的图像,这些文本可在街道上自由捕获,例如,店面和地标。其中50,000个具有完整注释,分为i)30,000个训练集,ii)20,000个测试集。作为训练集的一部分,其余400,000张图像均进行了弱注释。

为了评估各个方面的文本阅读性能,我们在此大型街景数据集上引入了两个常见的任务,即文本检测和端到端文本识别。

  • 文本检测,目的是将街景图像中的文本本地化为文本行级别,这与所有以前的RRC场景文本检测任务相似。
  • 端到端文本点,目的是以端到端的方式定位和识别图像中的所有文本行。

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,RCTW-17,MSRA-TD500,COCO-Text和MLT)或合成图像作为本次比赛的额外训练数据,而不能公开访问的私有数据则不然。允许使用。

基本真理格式

对于数据集中所有带有完整注释的图像,我们按照命名约定创建一个JSON文件,以结构化格式存储地面真相:

    gt_ [image_id],image_id是指数据集中图像的索引。

在JSON文件中,每个gt_ [image_id]都与一个列表相对应,其中列表中的每一行都与图像中的一个单词相对应,并以以下格式给出其边界框坐标,转录和模糊度标志:

{

    “ gt_1”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans1”,“模糊性”:false},

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“转录”:“ trans2”,“模糊性”:false}],

    “ gt_2”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“ transcription”:“ trans3”,“难以辨认”:false}],

    ……

}

其中“点”中的x1,y1,x2,y2,…,xn,yn是多边形边界框的坐标,可以是4、8、12个多边形顶点。设置为“ true”时,“转录”表示每个文本行的文本,“难以辨认”表示“无关”文本区域,这不会影响结果。

 

与完全注释基础事实相似,对于数据集中具有弱注释的图像,我们将所有基础事实存储在单个JSON文件中。在JSON文件中,每个gt_ [image_id]都对应一个词,我们在图像中将其称为“感兴趣的文本”:

{

    “ gt_0”:[{“ transcription”:“ trans1”}],

    “ gt_1”:[{“ transcription”:“ trans2”}],

    “ gt_2”:[{“ transcription”:“ trans3”}],

    ……

}

在此处下载地面实况示例:LSVT-gt-example 

任务1:文本检测

此任务是评估文本检测性能,其中应试者的方法应将街景图像中的文本本地化为文本行。

输入:完整的街景图像

输出:所有文本实例的四边形或多边形中的文本行的位置。

结果格式

所有提交结果的命名应遵循以下格式:res_ [image_id]。例如,与输入图像“ gt_1.jpg”相对应的文本文件的名称应为“ res_1”。要求参与者在单个JSON文件中提交所有图像的检测结果。提交文件格式如下: 

{

    “ res_1”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c},

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c}],

    “ res_2”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c}],

    ……

}

其中n是顶点的总数(可以是不固定的,在不同的预测文本实例之间有所不同。c 是预测的置信度得分。

在此处下载提交示例:LSVT-detection-example 

评估指标

遵循ICDAR 2015 [1]和ICDAR 2017-RCTW [2]数据集的评估协议,通过IoU(联合交叉)对LSVT(T1)的检测任务进行了精确度,召回率和F分数评估。阈值0.5和0.7,并且只有H均值低于0.5才会用作最终排名的主要指标。同时,在有多个匹配项的情况下,我们仅考虑具有最高IOU的检测区域,其余匹配项将被视为误报。精度,召回率和F分数的计算如下:

LSVT-equation1.jpg

 

其中TP,FP,FN和F分别表示真阳性,假阳性,假阴性和H均值。

所有检测到的或遗漏的“无关”事实都不会对评估结果有所帮助。与COCO文本[3]和ICDAR2015 [1]相似,难以辨认的文本
实例和符号被标记为“无关”区域。

任务2:端到端文本发现

该任务的主要目的是以端到端的方式检测和识别所提供图像中的每个文本实例。

输入:完整的街景图像

输出:四边形或多边形中的文本行的位置以及图像中所有文本实例的相应识别结果。

结果格式

学员须提交预测的检测和识别结果在一个JSON文件的所有图像:

{

    “ res_1”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“转录”:“ trans1”},

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“转录”:“ trans2”}],

    “ res_2”:[

        {“点”:[[x1,y1],[x2,y2],…,[xn,yn]],“信心”:c,“转录”:“ trans3”}],

    ……

}

其中n是顶点的总数(可以是不固定的,在不同的预测文本实例之间有所不同)。c是预测的置信度得分。“转录”表示每个文本行的文本。

 

预计所有比赛参与者都将提交他们的测试结果,测试结果将在最终提交截止日期前几周发布。

在此处下载提交示例:  LSVT端到端示例

评估指标

为了更全面地比较端到端文本发现任务(T2)的结果,将在多个方面对提交的模型进行评估,它们是:i)根据规范化编辑距离(1-NED)的规范化指标[2] (特别是),以及ii)精度,召回率和F分数尽管将发布两个指标的结果,但仅将1-NED视为正式排名指标

在F分数中完全匹配的条件下,真实的正文本行表示预测结果与匹配的地面事实(IoU高于0.5)之间的Levenshtein距离等于0。 

对于归一化度量,我们首先通过计算检测结果与相应的地面真相交(IoU)来评估检测结果。IoU值高于0.5的检测区域将与识别基础事实(即特定文本区域的成绩单基础事实)匹配。同时,在有多个匹配项的情况下,我们仅考虑IoU最高的检测区域,其余匹配项将被视为误报。然后,我们将使用归一化编辑距离(NED)评估预测的转录,公式为:

 

其中d(:)代表的Levenshtein距离,和si.jpg 与widehat_si.jpg 表示字符串的预测文本行,并在区域中的对应的基础事实。注意,widehat_si.jpg在所有地面真实位置上都计算了相应的地面真实,以选择最大IoU中的si.jpg 一个作为预测对。N是“配对” GT和检测到的区域的最大数量,其中包括单例:与任何检测都不匹配的GT区域(与NULL /空字符串配对)和与任何GT区域不匹配的检测(与NULL /空配对)空字符串)。 

注意:  为避免注释含糊不清,我们在评估前进行预处理:1)英文字母不区分大小写;2)繁体字和简体字视为同一个标签;3)空格和符号将被删除;4)所有难以辨认的图像均不会影响评估结果。

参考文献

[1] Karatzas,Dimosthenis等。“ ICDAR 2015强劲阅读竞赛。” 文档分析与识别(ICDAR),2015年第13届国际会议。IEEE,2015年。

[2]史宝光等。“ ICDAR2017野外阅读中文比赛(RCTW-17)。”文件分析与识别(ICDAR),2017年第14届IAPR国际会议。卷 1. IEEE,2017年。

[3] Gomez,Raul等。“ ICDAR2017对COCO-Text的强大阅读挑战。” 2017年第14届IAPR国际文件分析与识别会议(ICDAR)。IEEE,2017年。

下载-ICDAR2019带有部分标签的大规模街景文字的强大阅读挑战

LSVT数据集将包含450,000张带有文本的图像,这些图像可在街道上自由捕获。其中有50,000个具有完整注释,分为三部分:

i)30,000张完全注释的图像用于训练集,ii)20,000张测试集合,iii)400,000张弱注释训练集。

LSVT数据集也可以从百度镜像中找到:  LSVT-dataset

注意

参赛者可以自由使用公开可用的数据集(例如ICDAR2015,RCTW-17,MSRA-TD500,COCO-Text和MLT)或合成图像作为本次比赛的额外训练数据,而不能公开访问的私有数据则不然。允许使用

 

注册确认

1)要确认在RRC大赛2019的ICDAR-2019 LSVT挑战赛中的注册,请发送电子邮件至ICDAR-2019@baidu.com  ,标题为“ 参加ICDAR-2019 LSVT挑战赛 ” 
2)此过程不强制您参与或提交结果,这是一种兴趣表达。您可以参加挑战的一项或多项任务。没有必要参加所有任务。

 

训练集

带有弱注释的训练集包含400,000张图像(33 GB),并分为10个文件。

  • train_weak_images_0.tar.gz(3.3G)-40,000张图像
  • train_weak_images_1.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_2.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_3.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_4.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_5.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_6.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_7.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_8.tar.gz (3.3G) -40,000 张图像
  • train_weak_images_9.tar.gz (3.3G) -40,000 张图像
  • train_weak_labels.json- 包含40万张图片的真实文件

 

带有完全注释的训练集包含30,000张图像(8.2 GB),并分为2个文件。

  • train_full_images_0.tar.gz (4.1G)
  • train_full_images_1.tar.gz (4.1G)
  • train_full_labels.json -30,000张图像的真实文件

 

测试集

  • 测试集的第一部分:  test_part1_images.tar.gz  (2.7G) -10,000张图像

                  更新日志:我们对测试集的第一部分进行了一些数据清理,并于2019年4月20日对其进行了更新。

  • 测试集的最后一部分:  test_part2_images.tar.gz  (2.7G) -10,000张图像

 

注:第一部分和测试集的第二部分的结果应一并报送,以及 评价结果将提供 4月30日之后


http://chatgpt.dhexx.cn/article/Fk9foZuB.shtml

相关文章

ICDAR2019 ReCTS task1 比赛总结

ICDAR2019 ReCTS task1 比赛总结 写在前面比赛介绍比赛方案数据集网络选择训练调参 赛后总结 写在前面 这是自己的第一篇博客,拿来总结一下今年四月份的比赛——ICDAR 2019 ReCTS,同时记录一些自己的想法,方便以后回看。 比赛介绍 链接: 比…

ICDAR 2019比赛及数据集下载-任务-任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战

ICDAR 2019比赛及数据集下载-任务- https://rrc.cvc.uab.es/?ch13&comtasks 任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战 数据集和注释 数据集将具有1000个完整的扫描收据图像。每个收据图像包含大约四个关键文本字段,例如商品名称,单…

【OCR】EAST算法数据处理——ICDAR_2015数据集

背景 下载地址:https://rrc.cvc.uab.es/?ch4&comdownloads 注意:该数据为开源数据,但需要注册一个账号,简单注册下即可下载; 介绍:用于文本检测任务,数据包含1000张训练样本以及500张测…

ICDAR 2019表格识别论文与竞赛综述(上)

ICDAR 2019表格识别论文与竞赛综述(上) 表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为…

ICDAR文本检测的评价方法

目录 简要介绍 文件准备 代码注释 简要介绍 具体的介绍可以看这几篇文章,讲解的很详细了,本文主要参考这三篇文章并对官方给的代码做一些解释 ICDAR2013文本检测算法的衡量方法(一)Evaluation Levels ICDAR2013文本检测算法…

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上…

TencentOCR 斩获 ICDAR 2021 三项冠军

作者:TencentOCR团队 全球 OCR 最顶级赛事,TencentOCR 以绝对领先优势斩获三冠,腾讯技术再扬威名! 一、竞赛背景 2021 年 9 月,两年一届的 ICDAR 竞赛落下帷幕,这是文字识别(OCR)领域…

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过). 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化(ICDAR 2015)及训练 目录 ABCNet数据集转化(ICDAR 2015)及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021(International Conference on Document Analysis and Recognition)于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议,每两年举办一次,涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生,它们似乎都是属于研究、讨论人工智能的一种会议,但其实它们的区别还是挺大的,具体来说,它们主要有以下的区别: 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美 ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作,专注于数据领域报道,并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊,聚焦产业转型研究,理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日,“聚力远谋,创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕,来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂,共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤,君子以厚德载物。 坤:元,亨,利牝马之贞。 君子有攸往,先迷后得主,利;西南得朋,东北丧朋。 安贞,吉。 牝马指母马。为什么不用母牛?因为…

坤卦

坤卦 坤卦三偶六断,纯阴虚阙之象。“坤”字古文作“巛”,“顺”字偏旁及“川”字,亦“巛”之象形也,故《象传》曰“乃顺承天”,又曰“柔顺利贞”。《文言传》曰:“坤道其顺乎?”《系辞传》曰&am…