ICDAR 2017 RCTW 中文场景文本检测和识别数据集

article/2025/5/16 5:53:11

简介

ICDAR是进行场景文本检测和识别(Scene Text Detection and Recognition)任务最知名和常用的数据集。ICDAR 2017 RCTW[1](Reading Chinest Text in the Wild),由Baoguang Shi等学者提出。RCTW主要是中文,共12263张图像,其中8034作为训练集,4229作为测试集。使用四边形框标注文本行。
数据集绝大多数是相机拍的自然场景,一些是屏幕截图;包含了大多数场景,如室外街道、室内场景、手机截图等等。

数据集下载

  • 官网链接:http://rctw.vlrlab.net/dataset/
  • 训练集图像和标注(8034,7.6G):百度网盘下载 | hust.edu.cn下载
  • 测试集图像(4229,4.1G):谷歌网盘下载 | host.edu.cn下载

数据集分布

图像

分辨率

  • 图像分辨率大小不等,小则300+,大则3000+
  • 图像清晰程度不一,绝大多数背景和文字很清晰,极少数模糊

场景

  • 街道场景:主要是建筑、标志牌、条幅等带有文字的图像,这类场景占据大多数
  • 截图:主要是网络上带有文字的图像截图、手机上带有文字的图像截图、带文字的表情包图像
  • 室内:主要是商场、墙壁等带有文字的图像
  • 证件类:主要是车牌照、驾驶证、身份证等带有文字的图像

文本

  • 方向(multi-oriented):图像中的文本方向水平垂直倾斜均有,绝大多数是水平方向,弯曲方向极少数
  • 大小(multi-scale):由于图像拍照远近,图像有近距离或远距离的,因此文本大小不等,有较多的长文本
  • 质量:少数文本存在模糊、光照不均匀、低分辨率等情况
  • 字体:绝大多数字体为楷书,极少数艺术字,几乎没有手写字体
  • 遮挡:绝大多数文本没有遮挡,极少数有遮挡

标注

数据集的标注保存在<image_nam>.txt文件中,其中格式如下:

  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">
  • x1,y1,x2,y2,x3,y3,x4,y4,<识别难易程度>,<"文本">

注:x1,y1,x2,y2,x3,y3,x4,y4分别为左上、右上、右下、左下四个坐标,值为像素值。
注:<识别难易程度>01表示,0表示容易识别,即图像中文本清晰可见;1表示很难识别,即图像中文本较小或模糊不清楚。
注:<"文本">中如果有不清楚的字符,以#表示;如果文本完全不清楚,很难识别(对应<识别难易程度>=1),则以"###"表示。

数据样例

在这里插入图片描述

参考

[1] Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, and Xiang Bai. Icdar2017 competition on reading chinese text in the wild (rctw-17). In Document Analysis and Recognition (ICDAR), 2017 14th IAPR Inter- national Conference on, volume 1, pages 1429–1434. IEEE, 2017.
[2] Long S, He X, Ya C. Scene Text Detection and Recognition: The Deep Learning Era[J]. arXiv preprint arXiv:1811.04256, 2018.


http://chatgpt.dhexx.cn/article/t3P5V4vm.shtml

相关文章

ABCNet数据集转化(ICDAR 2015)及训练

ABCNet数据集转化&#xff08;ICDAR 2015&#xff09;及训练 目录 ABCNet数据集转化&#xff08;ICDAR 2015&#xff09;及训练一、环境配置1. detectron2 安装2. AdelaiDet 安装 二、ICDAR 2015 转化为Bezier pts格式三、网络训练1、文件目录2、训练3、训练过程中遇到的问题 一…

ICDAR 比赛技术分享

一 背景 ICDAR 2021&#xff08;International Conference on Document Analysis and Recognition&#xff09;于2021年9月5-10日在瑞士召开。ICDAR会议是文档分析与识别领域国际顶级会议&#xff0c;每两年举办一次&#xff0c;涵盖了文档分析与识别领域的最新学术成果和前沿…

世界人工智能大会与ICDAR有何不同?

从事人工智能领域的小伙伴对世界人工智能大会和ICDAR应该都不会陌生&#xff0c;它们似乎都是属于研究、讨论人工智能的一种会议&#xff0c;但其实它们的区别还是挺大的&#xff0c;具体来说&#xff0c;它们主要有以下的区别&#xff1a; 一、组织性质不同 ICDAR是Internati…

【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

关注公众号&#xff0c;发现CV技术之美 ICDAR&#xff08;International Conference on Document Analysis and Recognition&#xff09;是全球文档图像分析识别领域公认的权威学术会议&#xff0c;从1991年起每两年召开一次&#xff0c;今年是第17届&#xff0c;将于2023年9月…

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么&#xff1f; ICDAR是International Conference on Document Analysis and Recognition&#xff08;国际文档分析与识别会议&#xff09;的缩写。它每两年举办一次&#xff0c;由国际文献识别与文本处理委员会&#xff08;International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日&#xff0c;贝多财经了解到&#xff0c;数坤&#xff08;北京&#xff09;网络科技股份有限公司- B&#xff08;下称“数坤科技”&#xff09;在港交所的上市申请材料已“失效”&#xff0c;目前已经无法正常查看或下载。这代表着&#xff0c;数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作&#xff0c;专注于数据领域报道&#xff0c;并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊&#xff0c;聚焦产业转型研究&#xff0c;理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日&#xff0c;“聚力远谋&#xff0c;创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕&#xff0c;来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂&#xff0c;共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤&#xff0c;君子以厚德载物。 坤&#xff1a;元&#xff0c;亨&#xff0c;利牝马之贞。 君子有攸往&#xff0c;先迷后得主&#xff0c;利&#xff1b;西南得朋&#xff0c;东北丧朋。 安贞&#xff0c;吉。 牝马指母马。为什么不用母牛&#xff1f;因为…

坤卦

坤卦 坤卦三偶六断&#xff0c;纯阴虚阙之象。“坤”字古文作“巛”&#xff0c;“顺”字偏旁及“川”字&#xff0c;亦“巛”之象形也&#xff0c;故《象传》曰“乃顺承天”&#xff0c;又曰“柔顺利贞”。《文言传》曰&#xff1a;“坤道其顺乎&#xff1f;”《系辞传》曰&am…

数坤科技:AI在医疗影像的应用和探索

机器之心编辑部 3 月 23 日&#xff0c;在机器之心 AI 科技年会上&#xff0c;数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》&#xff0c;对 AI 医疗影像行业进行了全面的介绍。 以下为危夷晨在机器之心 AI 科技年会上的演讲内容&#xff0c;机器之心…

周易卦爻解读笔记——大壮

第三十四卦大壮 雷天大壮 震上乾下 大壮卦为消息卦&#xff0c;象征阳盛阴衰。 大壮卦是遁卦的覆卦&#xff0c;序卦传【物不可以终遁&#xff0c;故受之以大壮】 首先说明壮这个字&#xff1a; 武士操戈而立&#xff0c;可以理解为强壮&#xff0c;更多的是要理解为打击&…

重庆大学计算机学院新生综合,重庆大学

随着如火如荼的军训落下帷幕&#xff0c;金秋十月天朗气清&#xff0c;重庆大学2016级本科新生同学正式开始了他们在重庆大学充实多彩的学习生活。2016年10月13日&#xff0c;重庆大学计算机学院领导老师与全体新生见面会在虎溪校区理科楼报告厅隆重召开。学院出席本次大会的主…

世坤投资大学:欲提供数据科学硕士学位的对冲基金

全文共1843字,预计学习时长6分钟 图源:unsplash 随着数据科学、人工智能和机器学习的普及,很多人开始对这一领域产生兴趣,与之相关的学习资源也同比例增长。这些资源来源广泛,既包括YouTube、Github和博客网站等多功能平台上的免费内容,亦包括慕课和在线纳米学位等相对…

周易卦爻解读笔记——坤卦

第二卦坤 坤为地 坤上坤下 坤&#xff1a;元&#xff0c;亨&#xff0c;利牝马之贞。君子有攸往&#xff0c;先迷后得主&#xff0c;利西南得朋&#xff0c;东北丧朋。安贞&#xff0c;吉。 坤卦&#xff0c;初始通达&#xff0c;利于向母马一样正固&#xff08;意为一直顺从…

官网平台类产品的设计挖掘

参考图例&#xff1a;架构图素材库 -图标库 ToB 产品的官网设计&#xff0c;业务开始综合考虑产品设计在内外各平台上的一致性、高价值运营转化模块的凸显&#xff0c;以及上线后的用户满意度等运营数据。信息传达模式、信息分层逻辑、业务对设计理念的理解成本&#xff0c;成为…

抖音上坤之大强之作是什么意思

抖音坤之大强之作什么意思?最近抖音频繁出现这个词&#xff0c;谢广坤是谁?有很多的网友们都想知道坤之大强之作什么意思&#xff0c;感兴趣的网友们&#xff0c;下面就跟着小编一起来看看吧。 坤之大强之作什么意思 看过电视剧《乡村爱情》的人都知道&#xff0c;谢广坤的…

SLM7.1SR1SP05 配置(configuration guide+ link help) - 03 initial configuration part3

3.8 配置SLD 添加如下一条记录&#xff0c;setup localSLD 使用SOLMAN_ADMIN&#xff08;<password>&#xff09;账户登陆 输入用户名的密码 请注意&#xff0c;在安装SLD之前&#xff0c;如果不是使用的001集团&#xff0c;而是新copy出一个client&#xff0c;请确保JAV…

下载SAP-Approval list中的补丁

1、用SOLMAN_ADMIN登录slm 100系统 2、dswp 3、随便选择解决方案:ZPI_CON 4 变更管理 》 维护优化器 5 选择产品版本 6、 &#xff0c;如果已添加进Approval list 中&#xff0c;可以直接跳入下一步。 7、会转到sap网站的下载篮里。 确认下载