ICDAR 2019比赛及数据集下载

https://rrc.cvc.uab.es/?ch=14&com=tasks

任务-ICDAR2019任意形状文本的鲁棒阅读挑战

我们提议的比赛包括三个主要任务：

场景文字检测，
场景文字识别
场景文字发现。

注意

参赛者可以自由使用公开可用的数据集（例如ICDAR2015，MSRA-TD500，COCO-Text和MLT。）或合成图像作为本次比赛的额外训练数据，而不允许公开访问的私人数据不被使用。

基本事实格式

任务1和3

我们按照命名约定创建一个覆盖数据集中所有图像的JSON文件，以结构化格式存储基本事实：

gt_ [image_id]，其中image_id表示数据集中图像的索引。

在JSON文件中，每个gt_ [image_id]对应于一个列表，其中列表中的每一行对应于图像中的一个单词，并以以下格式给出其边界框坐标，转录，语言类型和难度标志：

{

“ gt_1”：[{“点”：[[x1，y1]，[x2，y2]，…，[xn，yn]]，“转录”：“ trans1”，“语言”：“拉丁语”，“难以辨认“：false}，

…

{“点”：[[x1，y1]，[x2，y2]，…，[xn，yn]]，“转录”：“ trans2”，“语言”：“中文”，“难以辨认”：false}] ，

“ gt_2”：[

{“ points”：[[x1，y1]，[x2，y2]，…，[xn，yn]]，“ transcription”：“ trans3”，“ language”：“ Latin”，“难以辨认”：false}] ，

……

}

其中“点”中的x1，y1，x2，y2，...，xn，yn是多边形边界框的坐标，可以是4、8、10、12个多边形顶点。“转录”表示每个文本行的文本，“语言”表示转录的语言类型，可以是“拉丁”和“中文”。与COCOtext [3]和ICDAR2015 [2]相似，当设置为“ true”时，“模糊性”表示“无关”文本区域，这不会影响结果。

任务2

给定的输入将是带有相应文本实例的裁剪图像块，以及相对的多边形空间坐标。与任务1相似，对于数据集中的所有图像，我们按照命名约定创建一个JSON文件以结构化格式存储基本事实：

gt_ [image_id]，其中image_id表示数据集中图像的索引。

{

“ gt_1”：[{“点”：[[x1，y1]，[x2，y2]，...，[xn，yn]]，“转录”：“ trans1”，“语言”：“拉丁语”，“难以辨认“：false}]，

“ gt_3”：[{“点”：[[x1，y1]，[x2，y2]，...，[xn，yn]]，“转录”：“ trans2”，“语言”：“拉丁语”，“难以辨认“：false}]，

“ gt_3”：[{“点”：[[x1，y1]，[x2，y2]，...，[xn，yn]]，“转录”：“ trans3”，“语言”：“拉丁语”，“难以辨认“：false}]，

……

}

注意，多边形坐标是作为可选信息提供的。参与者可以自由决定是否使用该信息。

图1：ArT数据集的示例图像。红色的装订线与多边形的地面真实顶点一起形成。该数据集中的所有图像均以“ jpg”后缀保存。

图2. ArT的多边形地面真值格式。

图2说明了所有提到的属性。值得指出的是，这种多边形地面实况格式与所有以前的RRC不同，后者使用了轴对齐的边界框[1、3]或四边形[2]作为唯一的地面实况格式。两者分别具有两个和四个顶点，这被认为不适用于ArT中面向任意方向的文本实例，尤其是弯曲的文本实例。中文和拉丁文字均在ArT中进行了注释。遵循MLT数据集的做法[5]，我们用行级粒度注释中文脚本，并以单词级粒度注释拉丁文脚本。

在此处下载提交示例：ArT-gt-example.zip

任务1：场景文本检测

此任务的主要目的是在给定输入图像的情况下检测每个文本实例的位置，这与所有先前的RRC场景文本检测任务相似。此任务的输入严格限制为仅图像，不允许任何其他形式的输入来在检测文本实例的过程中帮助模型。

输入：场景文字图像
输出：每个文本实例在拉丁语脚本的单词级别和在中文脚本的行级别的空间位置。

结果格式

所有提交结果的命名应遵循以下格式：res_ [image_id]。例如，与输入图像“ gt_1.jpg”相对应的文本文件的名称应为“ res_1”。要求参与者在单个JSON文件中提交所有图像的检测结果。提交文件格式如下：

{

“ res_1”：[

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c}，

…

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c}]，

“ res_2”：[

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c}]，

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。同样，n是顶点的总数（可以是不固定的，在不同的预测文本实例之间可以变化），而c是预测的置信度得分。为了鼓励尝试此挑战的不同方法，我们为参与者提供了一个默认包装脚本，这些参与者的模型将最终生成遮罩作为其最终输出，并在将其结果提交进行评估之前将其转换为多边形顶点。参与者可以自由使用并鼓励他们使用自己的方法将其遮罩输出转换为多边形顶点。

在此处下载提交示例：ArT-detection-example.zip

评估指标

对于T1，我们遵循CTW1500 [4]采用基于IoU的评估协议。IoU是基于阈值的评估协议，默认阈值设置为0.5。我们将在0.5和0.7阈值上报告结果，但只有低于0.5的H均值将被视为每个提交模型的最终分数，并用作提交排名的目的。为了确保公平，竞争对手需要为每次检测提交可信度评分，因此我们可以迭代所有可信度阈值以找到最佳的H均值。同时，在有多个匹配项的情况下，我们仅考虑具有最高IOU的检测区域，其余匹配项将被视为误报。精度，召回率和F分数的计算如下：

其中TP，FP，FN和F分别表示真阳性，假阳性，假阴性和H均值。

所有难以辨认的文本实例和符号都标记为“无关”区域，这不会对评估结果有所帮助。

任务2：场景文本识别

该任务的主要目的是识别裁剪图像补丁中的每个字符，这也是以前RRC中的常见任务之一。考虑到与拉丁文字相比，中文文字识别的研究还不成熟，我们决定将T2进一步细分为两个子类别：

T2.1-仅拉丁文字，
T2.2-拉丁文字和中文文字。

我们希望这样的划分可以使非汉语的人更容易完成这项任务，因为我们在这场比赛中要解决的主要问题是对任意形状文本的挑战。

输入：裁剪的带有文本实例的图像补丁。
输出：一串预测字符。

结果格式

对于T2，要求参与者在单个JSON文件中提交所有图像的预测成绩单：

{

“ res_1”：[{“ transcription”：“ trans1”}]，

“ res_2”：[{“ transcription”：“ trans2”}]，

“ res_3”：[{“ transcription”：“ trans3”}]，

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意：无论脚本如何，参与者都只需要提交一份即可。我们将按照拉丁和混合（拉丁和中文）两种类别评估所有提交的内容。在评估拉丁文字的识别性能时，所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例： ArT_recognition_example.zip

评估指标

对于T2.1，不区分大小写的单词准确性将作为主要的挑战度量标准。除此之外，所有针对文本斑点评估的标准实践（例如i）对于包含符号的地面真相，我们将在中间考虑符号ii），但在基本事实和陈述的开头和结尾都删除符号（！？。:: *“（）·[] /'_）。

对于T2.2，我们采用归一化编辑距离度量（特别是1-NED）和不区分大小写的单词精度。1-NED还用于ICDAR 2017竞赛ICPR-MTWI [6]。尽管将发布两个指标的结果，但仅将1-NED视为正式排名指标。归一化编辑距离（NED）的公式如下：

其中d（:)代表的Levenshtein距离，和与表示字符串的预测文本行，并在区域中的对应的基础事实。注意，在所有地面真实位置上都计算了相应的地面真实，以选择最大IoU中的一个作为预测对。N是“配对” GT和检测到的区域的最大数量，其中包括单例：与任何检测都不匹配的GT区域（与NULL /空字符串配对）和与任何GT区域不匹配的检测（与NULL /空配对）空字符串）。

之所以选择1-NED作为T2.2的官方排名度量标准，是因为中文脚本比拉丁文字具有更多的词汇量，而且通常还有更长的词汇量，这使得单词准确度指标过于苛刻，无法正确评估T2.2。在1-NED评估协议中，将以一致的方式对待所有字符（拉丁文和中文）。

注意：为避免注释中的歧义，我们在评估前执行某些预处理步骤：1）英文字母不区分大小写；2）繁体字和简体字被视为同一标签；3）空格和符号将被删除；4）所有难以辨认的图像均不会影响评估结果。

任务3：场景文字识别

该任务的主要目的是以端到端的方式检测和识别所提供图像中的每个文本实例。与RRC 2017相似，将提供通用词汇表（9万个常用英语单词）作为此挑战的参考。与T2相同，我们将T3分为两个子类别：

T3.1拉丁文字仅能识别文字，
T3.2拉丁和中文脚本文本识别。

输入：场景文字图像
输出：拉丁文字的每个文本实例在单词级别的空间位置，中文脚本的每个文本实例的空间位置以及每次检测的预测单词的空间位置。

结果格式

最后，要求参与者以以下格式在一个JSON文件中提交所有图像的结果：

{

“ res_1”：[

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c，“转录”：“ trans1”}，

…

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c，“转录”：“ trans2”}]，

“ res_2”：[

{“点”：[[x 1，y 1 ]，[x 2，y 2 ]，…，[x n，y n ]]，“信心”：c，“转录”：“ trans3”}]，

……

}

JSON文件的密钥应遵循res_ [image_id]的格式。

注意：无论脚本是什么，参与者都只需要提交一次即可。我们将按照拉丁和混合（拉丁和中文）两种类别评估所有提交的内容。在评估拉丁文字的识别性能时，所有非拉丁文字都将被视为“无关”区域。

在此处下载提交示例：ArT-end-to-end-result-example.zip

评估指标

对于T3，我们首先通过计算检测结果与相应的地面真相交点（IoU）来进行评估。IoU值高于0.5的检测区域将与识别基础事实（即特定文本区域的成绩单基础事实）匹配。同时，在有多个匹配项的情况下，我们仅考虑具有最高IOU的检测区域，其余匹配项将被视为误报。然后，我们将使用不区分大小写的单词准确性H均值和1-NED（以1-NED作为官方排名）评估T3.1的预测转录（而该评估中的中文区域将被忽略）。与T2.2相似，我们将同时发布T3.2的度量标准（1-NED和不区分大小写的单词准确性），

注意：识别部分的预处理步骤与任务2相同。

参考文献

Karatzas，Dimosthenis等。“ ICDAR 2013健壮的阅读比赛。” 文件分析与识别（ICDAR），2013年第12届。IEEE，2013年。
Karatzas，Dimosthenis等。“ ICDAR 2015强劲阅读竞赛。” 文档分析与识别（ICDAR），2015年第13届。IEEE，2015年。
戈麦斯，劳尔等人。“ ICDAR2017对COCO-Text的强大阅读挑战。” 第14届IAPR国际文件分析与识别会议（ICDAR）。IEEE，2017年。
于良，刘，连文，金，等。“通过横向和纵向序列连接的弯曲场景文本检测。” 模式识别，2019年。
Nayef，Nibal等。“ ICDAR2017在多语言场景文本检测和脚本识别-RRC-MLT上的强大阅读挑战。” 文件分析与识别（ICDAR），2017年第14届IAPR国际会议。卷 1. IEEE，2017年
石宝光等。“ ICDAR2017野外阅读中文比赛（RCTW-17）。” 文件分析与识别（ICDAR），2017年第14届IAPR国际会议。卷 1. IEEE，2017年。

=======

下载-ICDAR2019任意形状文本的鲁棒阅读挑战

ArT数据集将包含10,166张图像。它分为具有5,603张图像的训练集和4,563张图像的测试集。

训练数据和测试集的第一部分也可以从百度镜像中找到： ArT数据集

注意

参赛者可以自由使用公开可用的数据集（例如ICDAR2015，MSRA-TD500，COCO-Text和MLT。）或合成图像作为本次比赛的额外训练数据，而不允许公众访问的私人数据不被使用。

注册确认

1）要确认是否参加了RRC竞赛2019的ICDAR-2019 ArT挑战，请发送电子邮件至 ICDAR-2019@baidu.com ，标题为“ 参加ICDAR-2019 ArT挑战 ”
2）您参与或提交结果，这是一种兴趣表达。您可以参加挑战的一项或多项任务。没有必要参加所有任务。

训练套

对于任务1和任务3
- train_images.tar.gz （1.6G）-5,603张图片
- train_labels.json （41M）- 用于 5,603张图像的地面真实文件
对于任务2
- train_task2_images.tar.gz （439M）-50,029图片
- train_labels_task2.json （35M）- 用于 50,029张图像的地面真实文件

测试集

测试集的第一部分：
- 对于任务1和任务3
  - test_part1_images.tar.gz （1.4G）-2271张图片
- 对于任务2
  - test_part1_task2_images.tar.gz （439M）-24836图片
测试集的最后一部分：
- 对于任务1和任务3
  - test_part2_images.tar.gz （1.4G） -2292张图片
- 对于任务2
  - test_part2_task2_images.tar.gz （467M）-27795 图片

注意： 测试集的第一部分和第二部分的结果应一起提交，评估结果将在4月30日之后提供。

建议使用OpenCV 3.1进行图像处理。