将 ICDAR 2015 的 Ground Truth 标注在图像数据上

article/2025/10/19 4:26:36

因为要标注数据，数据集是 ICDAR 2015 比赛中的 Challenge 4: Incidental Scene Text。

原图及标注的图像，还有给定的 ground truth 文件如下所示：

最左边是原图，中间是标注的图像，右边是 ground truth 文件内容，按顺时针顺序的坐标： $x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4$ ，最后是 words，但是如果是 ### 这种表示的，则表示不 care 文字的内容。

用 python 将 ground truth 框住文字，代码如下：

import os
import path
import glob
import Image, ImageDraw# ground truth directory
gt_text_dir = "/home/chenxp/Documents/Hitachi/ICDAR_2015/ICDAR2015_ch4/ch4_training_localization_transcription_gt"# original images directory
image_dir = "/home/chenxp/Documents/Hitachi/ICDAR_2015/ICDAR2015_ch4/*.jpg"
imgDirs = []
imgLists = glob.glob(image_dir)# where to save the images with ground truth boxes
imgs_save_dir = "/home/chenxp/Documents/Hitachi/ICDAR_2015/ICDAR_with_GT"for item in imgLists:imgDirs.append(item)for img_dir in imgDirs:img = Image.open(img_dir)dr = ImageDraw.Draw(img)    img_basename = os.path.basename(img_dir)(img_name, temp2) = os.path.splitext(img_basename)# open the ground truth text fileimg_gt_text_name = "gt_" + img_name + ".txt"print img_gt_text_namebf = open(os.path.join(gt_text_dir, img_gt_text_name)).read().decode("utf-8-sig").encode("utf-8").splitlines()for idx in bf:rect = []spt = idx.split(',')rect.append(float(spt[0]))rect.append(float(spt[1]))rect.append(float(spt[2]))rect.append(float(spt[3]))rect.append(float(spt[4]))rect.append(float(spt[5]))rect.append(float(spt[6]))rect.append(float(spt[7]))# draw the polygon with (x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4)dr.polygon((rect[0], rect[1], rect[2], rect[3], rect[4], rect[5], rect[6], rect[7]), outline="red")img.save(os.path.join(imgs_save_dir, img_basename))

上面代码中间有一句话：

bf = open(os.path.join(gt_text_dir, img_gt_text_name)).read().decode("utf-8-sig").encode("utf-8").splitlines()

如果没有 decode("utf-8-sig").encode("utf-8") 这句话，那么在解析 ground truth 的 txt 文件时，会在首行多处下面的东西，如下所示：

看到了吗？第一行 \xef\xbb\xbf ，这是什么鬼？

Google 一下，在 stackoverflow 上有个问答：Split function add: \xef\xbb\xbf…\n to my list：

原来是 txt 文件编码包含了 UTF-8 BOM。

最后标注的结果如下：

将 ICDAR 2015 的 Ground Truth 标注在图像数据上

相关文章

ICDAR 2019比赛及数据集下载-任务-ICDAR2019任意形状文本的鲁棒阅读挑战

ICDAR 2019比赛及数据集下载-任务-ICDAR2019对带有部分标签的大规模街景文本的强大阅读挑战

ICDAR2019 ReCTS task1 比赛总结

ICDAR 2019比赛及数据集下载-任务-任务-ICDAR 2019扫描收据OCR和信息提取的稳健阅读挑战

【OCR】EAST算法数据处理——ICDAR_2015数据集

ICDAR 2019表格识别论文与竞赛综述（上）

ICDAR文本检测的评价方法

技术探秘: 360数科夺得ICDAR OCR竞赛世界第一

TencentOCR 斩获 ICDAR 2021 三项冠军

ICDAR 2021竞赛科学文献分析——表格识别综述部分（剩余部分是文档布局分析）

ICDAR 2017 RCTW 中文场景文本检测和识别数据集

ABCNet数据集转化（ICDAR 2015）及训练

ICDAR 比赛技术分享

世界人工智能大会与ICDAR有何不同？

【赛事推荐】ICDAR2023国际学术竞赛，六大OCR未解难题等你来挑战！

AI领域著名的ICDAR是何物？有何作用？

富芮坤fr8008gp代码:堆栈设置；lv_timer_handler定时器研究和优化；广播数据中不用定义GAP_ADTVYPE_FLAGS；广播使用设备唯一地址

数坤科技上市遇阻？申请材料失效，融资“数据打架”，存数亿缺口

《数据》杂志刊登坤前署名文章：金融信创构筑产业数字化转型之路

“聚力远谋，创赢未来”坤前全国巡展广州站圆满落幕