ICDAR 2019比赛及数据集下载-任务-ICDAR 2019场景文本视觉问答中的稳健阅读挑战

article/2025/5/15 10:09:04

 ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=11&com=tasks

任务-ICDAR 2019场景文本视觉问答中的稳健阅读挑战

挑战包含三个任务,它们都是2019年竞赛的新任务:

  • 高度上下文相关,每个图像都有一个字典,其中包含出现在针对该图像问题定义的答案中的单词以及一系列干扰因素。
  • 弱上下文化,参与者将拥有一个针对所有数据集图像的30,000个单词的独特词典,该词典是通过收集所有地面​​真实单词加干扰因子而形成的。
  • 端到端,其中未给出可能的答案的预定义列表,并且必须通过以下方式自动生成正确的答案:处理图像上下文,阅读和理解图像中的文本信息。

 

数据集和工具

SceneText-VQA数据集包含23,000张图像,每个图像最多包含三个问题/答案对。提供了火车和试车。训练集由19000张图像和26000个问题组成,而测试集由3000张图像和每个任务4000个问题组成。图1给出了预期的问题和答案类型的示例。

图1.  此图像可能的问题/答案对可能是:
(Q)图像底部出现了哪个苏打水品牌?(A)可口可乐。

 

除了数据集,我们还提供了一组实用程序功能和脚本,用于通过RRC在线平台评估和可视化提交的结果,以及可以脱机使用的独立代码和实用程序(后者在比赛后提供)已完成)。

任务1-紧密关联

在第一个任务中,将为参与者提供每个图像的可能答案的不同列表。该列表将包含图像中出现的一些单词,以及一些额外的词典单词。这样,每个图像将包含相对较小但不同的可能答案集。对于上面的示例图像,将为参与者提供一个列表,其中包括以下单词以及一些词典单词:

[公众,市场,中心,可口可乐,农民,享受……]

任务2-弱关联

在此任务中,将为参与者提供完整数据集的可能答案的完整列表,并补充一些词典单词。尽管对于数据集中的所有图像,可能答案的列表将是相同的(静态列表),但是该列表比上一个任务的答案集要大得多。该词典由30,000个单词组成,这些单词是通过收集所有22k个地面真实单词加上8k个生成的词汇形成的。

任务3-打开字典

端到端任务是最通用且最具挑战性的任务,因为事先没有提供任何答案。通过分析图像的视觉环境以及阅读和理解所有图像所包含的文字信息,提交的用于此任务的方法应该能够生成正确的答案。

评估指标

在所有这三个任务中,评估指标将是平均标准化Levenshtein相似度(ANLS)。ANLS可以顺利捕获OCR错误,并在预期的正确回答的情况下进行了轻微的惩罚,但识别度很差。它还使用值0.5的阈值,该阈值指示如果度量的值等于或大于0.5或0,则度量的输出将是ANLS。此阈值的关键是确定答案是否已正确选择但未正确识别,或者相反,输出是从选项中选择并给出答案的错误文本。

更正式地讲,净输出与地面真相答案之间的ANLS 等式1 给出。其中N是问题总数,M是每个问题的GT答案总数,ij是地面真相答案,其中i = {0, ...,N},且j = {0,...,M},o q i是第i 个问题q i的网络答案。


 

ANLS.png

 

 

它不区分大小写,但是对空间敏感。例如:

 

  问:红盘上的软饮料公司名称是什么?

  可能的不同答案:

  • 一I1:可口可乐

  • 一个我2:可口可乐公司

ANLSSampleResults.png

 

 

投稿格式

每个任务的提交文件应该只有一个。应该将其格式化为包含字典列表的JSON文件,其中有两个键:“ questions_id”和“ answer”。“ question_id”键代表问题的唯一ID,而键“ answer”应为模型的输出。例如,结果文件可能命名为:result_task1.json,并将包含类似于以下内容的列表:

[  

    {'answer':'Coca','question_id':1},

    {'answer':'停止','question_id':2},

    {'answer':'delta','question_id':3},

     ...,

     ...,

]

下载-ICDAR 2019场景文本视觉问答中的稳健阅读挑战

 

下载

训练集:

您可以在下面下载图像和json文件:

  • 高度上下文相关的任务1:datasets.cvc.uab.es/rrc/train_task_1.json
  • 弱上下文相关任务2:datasets.cvc.uab.es/rrc/train_task_2.json
  • 端到端任务3:datasets.cvc.uab.es/rrc/train_task_3.json
  • 训练图像:datasets.cvc.uab.es/rrc/ST-VQA.tar.gz

测试集:

  • 任务1测试图像:datasets.cvc.uab.es/rrc/test_task1_imgs.tar.gz
  • 任务2测试图像:datasets.cvc.uab.es/rrc/test_task2_imgs.tar.gz
  • 任务3测试图像:datasets.cvc.uab.es/rrc/test_task3_imgs.tar.gz
  • 任务1 json文件:datasets.cvc.uab.es/rrc/test_task_1.json
  • 任务2 json文件:datasets.cvc.uab.es/rrc/test_task_2.json
  • 任务3 json文件:datasets.cvc.uab.es/rrc/test_task_3.json

描述

  • 用于训练和验证集的图像来自多个数据集,即;ICDAR,ImageNet,VizWiz,IIIT Street Text,COCO-Text和Visual Genome。
  • 论文中的编号应在4月15日发布的测试仪上报告。
  • 我们为Task-1的每个图像提供一个字典,为Task-2的完整数据集提供一个字典,而对于Task-3则没有额外的信息(有关详细信息,请参阅“ 任务”说明)。

注释说明

每个任务的注释都发布在JSON文件中。JSOn文件具有表1第一行中所示的结构。在第二行中,“数据”字段详细说明。

 

   任务1

 

 

   任务2

 

 

   任务3

 

{

   “数据”:[

          每个问题ID的词典列表

   ],

   “ task_name”:“任务1-高度关联”,

   “ dataset_name”:“ st-vqa”

}

 

 

 

{

   “数据”:[

          每个问题ID的词典列表

   ],

   “ task_name”:“任务2-弱关联”,

   “ dataset_name”:“ st-vqa”,

   “字典”:[

          所有词汇表

   ]

}

{

   “数据”:[

          每个问题ID的词典列表

   ],

   “ task_name”:“任务3-打开”,

   “ dataset_name”:“ st-vqa”

}

 

 

 

{

   “ set_name”:训练或测试分组,

   “ file_name”:图像文件的名称,

   “数据集”:图像数据集源,

   “ image_width”:整数,图像的宽度,

   “ image_height”:整数,图像的高度,

   “问题”:问题字符串

   “答案”:[

          正确答案列表(基本事实)

   ],

   “ question_tokens”:[

          来自已标记化问题的单词列表

   ],

   “字典”:[

          100个可能的正确答案列表

   ],

   “ file_path”:根目录中的相对图像路径,

   “ question_id”:表示唯一ID的整数

}

{

   “ set_name”:训练或测试分组,

   “ file_name”:图像文件的名称,

   “数据集”:图像数据集源,

   “ image_width”:整数,图像的宽度,

   “ image_height”:整数,图像的高度,

   “问题”:问题字符串

   “答案”:[

          正确答案列表(基本事实)

   ],

   “ question_tokens”:[

          来自已标记化问题的单词列表

   ],

   “ file_path”:根目录中的相对图像路径,

   “ question_id”:表示唯一ID的整数

}

 

 

 

{

   “ set_name”:训练或测试分组,

   “ file_name”:图像文件的名称,

   “数据集”:图像数据集源,

   “ image_width”:整数,图像的宽度,

   “ image_height”:整数,图像的高度,

   “问题”:问题字符串

   “答案”:[

          正确答案列表(基本事实)

   ],

   “ question_tokens”:[

          来自已标记化问题的单词列表

   ],

   “ file_path”:根目录中的相对图像路径,

   “ question_id”:表示唯一ID的整数

}

 

 

 

表1:注释描述表


http://chatgpt.dhexx.cn/article/ePQg2xUg.shtml

相关文章

ICDAR 2019 论文下载

点击我爱计算机视觉标星,更快获取CVML新技术 ICDAR( International Conference on Document Analysis and Recognition )是文档分析与识别领域最有影响力的学术会议,ICDAR 2019 已经于9月20-25日在澳大利亚召开。 ICDAR 关注的技术…

将 ICDAR 2015 的 Ground Truth 标注在图像数据上

因为要标注数据,数据集是 ICDAR 2015 比赛中的 Challenge 4: Incidental Scene Text。 原图及标注的图像,还有给定的 ground truth 文件如下所示: 最左边是原图,中间是标注的图像,右边是 ground truth 文件内容&…

ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战

ICDAR 2019比赛及数据集下载 https://rrc.cvc.uab.es/?ch14&comtasks 任务-ICDAR2019任意形状文本的鲁棒阅读挑战 我们提议的比赛包括三个主要任务: 场景文字检测,场景文字识别场景文字发现。 注意 参赛者可以自由使用公开可用的数据集&#…

ICDAR 2019比赛及数据集下载-任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战

ICDAR 2019比赛及数据集下载 https://rrc.cvc.uab.es/?ch16&comtasks 任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战 LSVT数据集将包含450、000张带有文本的图像,这些文本可在街道上自由捕获,例如,店面和地标。其中50…

ICDAR2019 ReCTS task1 比赛总结

ICDAR2019 ReCTS task1 比赛总结 写在前面比赛介绍比赛方案数据集网络选择训练调参 赛后总结 写在前面 这是自己的第一篇博客,拿来总结一下今年四月份的比赛——ICDAR 2019 ReCTS,同时记录一些自己的想法,方便以后回看。 比赛介绍 链接: 比…

ICDAR 2019比赛及数据集下载-任务-任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战

ICDAR 2019比赛及数据集下载-任务- https://rrc.cvc.uab.es/?ch13&comtasks 任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战 数据集和注释 数据集将具有1000个完整的扫描收据图像。每个收据图像包含大约四个关键文本字段,例如商品名称,单…

【OCR】EAST算法数据处理——ICDAR_2015数据集

背景 下载地址:https://rrc.cvc.uab.es/?ch4&comdownloads 注意:该数据为开源数据,但需要注册一个账号,简单注册下即可下载; 介绍:用于文本检测任务,数据包含1000张训练样本以及500张测…

ICDAR 2019表格识别论文与竞赛综述(上)

ICDAR 2019表格识别论文与竞赛综述(上) 表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为…

ICDAR文本检测的评价方法

目录 简要介绍 文件准备 代码注释 简要介绍 具体的介绍可以看这几篇文章,讲解的很详细了,本文主要参考这三篇文章并对官方给的代码做一些解释 ICDAR2013文本检测算法的衡量方法(一)Evaluation Levels ICDAR2013文本检测算法…

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

ICDAR(国际文档分析与识别会议)是OCR识别领域最权威的会议之一。近期,360数科在ICDAR2019-SROIE(Results - ICDAR 2019 Robust Reading Challenge on Scanned Receipts OCR and Information Extraction - Robust Reading Competition) 榜单上…

TencentOCR 斩获 ICDAR 2021 三项冠军

作者:TencentOCR团队 全球 OCR 最顶级赛事,TencentOCR 以绝对领先优势斩获三冠,腾讯技术再扬威名! 一、竞赛背景 2021 年 9 月,两年一届的 ICDAR 竞赛落下帷幕,这是文字识别(OCR)领域…

ICDAR 2021竞赛 科学文献分析——表格识别综述部分(剩余部分是文档布局分析)

任务B为表格识别部分,本文暂只看表格识别摘要(不重要,想直接看表格识别部分可以跳过). 科学文献包含与不同领域的前沿创新有关的重要信息。自然语言处理的进步推动了科学文献信息自动提取的快速发展。然而,科学文献通…

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

简介 ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练…

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化(ICDAR 2015)及训练 目录 ABCNet数据集转化(ICDAR 2015)及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021(International Conference on Document Analysis and Recognition)于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议,每两年举办一次,涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生,它们似乎都是属于研究、讨论人工智能的一种会议,但其实它们的区别还是挺大的,具体来说,它们主要有以下的区别: 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号,发现CV技术之美 ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…