【赛事推荐】ICDAR2023国际学术竞赛,六大OCR未解难题等你来挑战!

article/2025/5/16 8:52:21

关注公众号,发现CV技术之美

c8a4d4c4684d95f12854c3dcee83435c.png

ICDAR(International Conference on Document Analysis and Recognition)是全球文档图像分析识别领域公认的权威学术会议,从1991年起每两年召开一次,今年是第17届,将于2023年9月20-25日在美国加利福尼亚市举行。

自2003 年ICDAR 设立“Robust Reading Competitions”系列学术竞赛以来,该竞赛就成了评测和检验自然场景/网络图片文本自动提取与智能识别最新技术研究进展的重要国际赛事及标准,竞赛中的诸多方法对光学字符识别(Optical Character Recognition,OCR)技术发展具有强大推动力。

场景文字识别具有广泛应用场景,例如:拍照翻译、图像检索、街景地标识别、室外场景理解等。但由于自然场景图像中的文字字体多样、排列不规范、形状及色彩多变、背景复杂、图像对文字的干扰大等等因素,使得场景文字检测与识别仍然是计算机视觉及文档图像分析与识别领域中一个极具挑战的研究热点问题。

高技术难度、高实际应用性,也使该系列竞赛受到科研院校、科技公司的广泛关注,至今已有119个国家的7821多支队伍参与。

赛事1:ICDAR 2023结构化信息抽取大赛(ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images) 

主要组织者:Xiang Bai(华中科技大学),Jingdong Wang(百度),Errui Ding(百度),Dimosthenis Karatzas(Universitat Autónoma de Barcelona),Min Zhang(哈尔滨工业大学),Wanxiang Che(哈尔滨工业大学),Shuicheng Yan(Sea AI Lab),Jiebo Luo(University of Rochester),Cheng-Lin Liu(中科院自动化所)

文档图像的信息化抽取具有重要的商用价值和广泛的应用前景。然而,过去的方法大多采用多阶段策略,测试评估使用的数据集的规模和类型有限。该比赛的数据由华中科技大学与百度共同提供,包含至今最丰富的应用场景和语义属性。本赛事包含HUST-CELL和BAIDU-FEST两大赛道,分别支撑复杂文档的结构化信息抽取和零样本\小样本条件下的结构化信息抽取。 

比赛将于2023年1月10日开赛,详情可参考比赛官网:

https://rrc.cvc.uab.es/?ch=21

adf874790298e810150f6d2dee013bfd.png

图1 赛事1 ICDAR2023结构化信息抽取大赛样例

赛事2:ICDAR 2023面向密集小文本场景的视频文字识别竞赛(ICDAR 2023 Video Text Reading Competition for Dense and Small Text)

组织者:Weijia Wu(浙大),Yudong Zhao(中科院大学),Zhuang Li(快手),Jiahong Li(快手),Mike Zheng Shou(NUS),Umapada Pal(Indian Statistical Institute),Dimosthenis Karatzas(Universitat Autónoma de Barcelona),Xiang Bai(华中科技大学)

随着视频技术和应用的快速发展,视频分析领域对于OCR的需求越来越大,例如视频检索,视频导航,自动假设等。不同于此前比赛关注常规文本的检测与识别,本次ICDAR 2023-DSText国际学术竞赛将聚焦稠密和小目标的视频文字检测与识别这一极具挑战的问题。

比赛设置如下两个任务:1)视频文本跟踪;2)端到端视频文本识别。

比赛将于2023年2月15日开赛,官网:

https://rrc.cvc.uab.es/?ch=22&com=introduction

4a18010d075265f503a9861eca806b63.png

图2 赛事2 ICDAR2023面向密集小文本场景的视频文字识别竞赛样例

赛事3:ICDAR 2023印章抬头识别竞赛(ICDAR 2023 Reading the Seal Title)

主要组织者:Xiang Bai(华中科技大学),Yuliang Liu(华中科技大学),Wenwen Yu(华中科技大学),Ning Lu(华为),Mingyu Liu(华中科技大学),Dimosthenis Karatzas(Universitat Autónoma de Barcelona)

随着深度学习的不断发展,包括场景文本检测与识别技术在内的OCR技术得到了飞速的发展,但是印章作为人们生活办公中随处可见的重要元素,却没有能够获得关注,而印章抬头识别这一课题也面临着诸多挑战,比如各式各样的印章形状,弯曲的文本内容,复杂的背景噪声以及无处不在的重叠文本干扰。

该比赛的数据由华中科技大学提供,包含丰富的不同印章类型数据。本赛事包含两个任务,分别为印章抬头文本检测和端到端印章抬头文本内容识别。 

比赛已于2023年1月1日开赛,详情可参考比赛官网: 

https://rrc.cvc.uab.es/?ch=20

14590820d093ba2141b889a12cc4c9e5.png

图3 赛事3 ICDAR 2023印章抬头识别竞赛样例

赛事4:ICDAR 2023多行公式识别竞赛(ICDAR 2023 Multi-line Handwritten Mathematical Expression Recognition Competition)

主要组织者:Chenyang Gao(华中科技大学),Yuliang Liu(华中科技大学),Shiyu Yao(好未来),Jinfeng Bai(好未来),Xiang Bai(华中科技大学),Lianwen Jin (华南理工大学), Chenglin Liu(中科院自动化所)

数学公式在科学文献中占有重要地位,在描述数学、物理等诸多领域的问题和理论时不可或缺。手写公式识别在智能化作业批改、智慧教育等领域也有着广泛的应用前景。现有数据集(CROHME、HME100K)仅关注单行公式,然而多行公式也经常出现在我们的日常生活中,在手写公式识别领域具有重要意义。 

该比赛的数据由好未来提供,来源于真实的应用场景。希望这个比赛能够吸引更多的研究人员、学生、从业人员关注这个领域,促进该领域的发展。 

比赛将于2023年1月11日开赛,详情可参考比赛官网:

https://ai.100tal.com/icdar

567225ac989b07c8afca1a962fcfbb5b.png

图4 赛事4 ICDAR 2023多行公式识别竞赛样例

赛事5:ICDAR 2023文本篡改检测竞赛 (ICDAR 2023 Competition on Detecting Tampered Text in Images)

主要组织者:Dongliang Luo (华中科技大学),Yu Zhou(华中科技大学),Rui Yang(阿里),Yuliang Liu(华中科技大学),Xianjin Liu(阿里) , Jishen Zeng(阿里),Enming Zhang(华中科技大学) , Biao Yang(华中科技大学) , Ziming Huang(华中科技大学),Lianwen Jin(华南理工大学),Xiang Bai(华中科技大学)

文本是人类社会中重要的信息载体,携带了许多重要信息。近年来,文档分析与识别领域快速发展,新兴技术层出不穷,应用于数字金融、电子商务、安全审核、智慧教育等各种领域,极大地方便了人们的生活。因此,能够防止文本信息被恶意篡改显得尤为重要,文本篡改检测也逐渐引发学术界与产业界的广泛关注。

由于篡改手段的多样性、篡改文本的隐蔽性,文本篡改检测目前存在着众多难点,如篡改痕迹微弱、篡改文本与邻近文本高度相似等。种种难点对检测方法的精度和泛化性提出了挑战。该比赛的数据由华中科技大学与阿里巴巴集团提供,竞赛将关注文本图像自身的真实性,聚焦于图像中的文本篡改检测与定位。

比赛将于2023年2月15日开赛,详情可参考比赛官网:  

https://tianchi.aliyun.com/competition/entrance/532048/introduction

66ad8ae19002c34b3ac5f1678abc618c.png

图5 赛事5 ICDAR 2023文本篡改检测竞赛样例

赛事6:ICDAR 2023数字原生视频文本问答竞赛(ICDAR 2023 Competition on Born Digital Video Text Question Answering)

主要组织者:Zhibo Yang(阿里巴巴),Xiaoge Song(南京大学),Sibo Song(阿里巴巴),Cong Yao(阿里巴巴),Tong Lu(南京大学),Xiang Bai(华中科技大学),Cheng-Lin Liu(中科院自动化所)

视频作为移动互联网时代最常见的内容服务媒介,在购物、直播、短视频、社交等领域扮演着越来越重要的角色。视频中文字作为视频的重要构成之一,是传递内容关键信息的最有效载体。

本次竞赛围绕数字原生视频中的文本提问和作答,数据集主要关注具有数字原生视频文字特色的视频内容和问答设置,包括但不限于:

(1)文字有较多动画和特效,如渐入渐出、放大缩小等;

(2)文字随载体旋转或位置变化而具有一定运动轨迹,如运动中的富文本商品等;

(3)问题回答需要跟踪和理解视频文本上下文,如安装某个工具的第几步等。

比赛的数据由阿里巴巴集团提供,本竞赛包含两个赛道。

第一个赛道关注视频中的文本数字化,相比已有的视频文本数据集,本赛道会更加侧重于视频文字的融合和去重。

第二个赛道是问答,据我们所知,这是业界第一次针对视频文字的问答,算法应该在完成视频OCR的融合后,进一步理解分句及整段文本所展示的内容。

比赛将于2023年2月15日开赛,详情可参考比赛官网:  

https://tianchi.aliyun.com/specials/promotion/ICDAR_2023_Competition_on_Born_Digital_Video_Text_QA

0e1499af36abd52023a07bc951c6760b.png

图6 赛事6 ICDAR 2023数字原生视频文本问答竞赛样例

d5c6db5c1d811fbed5c90d619db16791.jpeg

END

欢迎加入「OCR交流群👇备注:OCR

3dda63c0f75963793964c09c961609a5.png


http://chatgpt.dhexx.cn/article/3lmnNrUw.shtml

相关文章

AI领域著名的ICDAR是何物?有何作用?

来百度APP畅享高清图片 一、ICDAR是什么? ICDAR是International Conference on Document Analysis and Recognition(国际文档分析与识别会议)的缩写。它每两年举办一次,由国际文献识别与文本处理委员会(International…

富芮坤fr8008gp代码:堆栈设置;lv_timer_handler定时器研究和优化;广播数据中不用定义GAP_ADTVYPE_FLAGS;广播使用设备唯一地址

堆栈设置 fr8008gp使用自定义的linker脚本: ;256k bytes, which is 2M ROM ;ROM 0x00000000 0x40000 0x30000 ROM 0x10000000 0x800000 {ER_TABLE 0{*(jump_table_0)*(jump_table_1)*(jump_table_2)*(jump_table_3)*(jump_table_4)}ER_RO 0x10002000 FIXED{*(RO)}ER_BOOT …

数坤科技上市遇阻?申请材料失效,融资“数据打架”,存数亿缺口

2022年3月21日,贝多财经了解到,数坤(北京)网络科技股份有限公司- B(下称“数坤科技”)在港交所的上市申请材料已“失效”,目前已经无法正常查看或下载。这代表着,数坤科技首次冲刺上…

《数据》杂志刊登坤前署名文章:金融信创构筑产业数字化转型之路

《数据》--《产业转型研究》专刊 《数据》杂志是由北京市统计局和北京日报报业集团战略合作,专注于数据领域报道,并在全国发行的经济资讯类新闻期刊。此次清华大学互联网产业研究院产业转型顾问委员会专刊,聚焦产业转型研究,理论和…

“聚力远谋,创赢未来”坤前全国巡展广州站圆满落幕

9月28日,“聚力远谋,创赢未来”2021坤前生态合作伙伴交流全国巡展首站在广州正式启幕,来自各行各业的核心客户及坤前生态合作伙伴齐聚一堂,共话信创产业发展。 飞腾信息技术有限公司华南区域总监李荣恩先生对会议主办方坤前表达了…

易经读书笔记02坤为地

地道柔刚 象曰 地势坤,君子以厚德载物。 坤:元,亨,利牝马之贞。 君子有攸往,先迷后得主,利;西南得朋,东北丧朋。 安贞,吉。 牝马指母马。为什么不用母牛?因为…

坤卦

坤卦 坤卦三偶六断,纯阴虚阙之象。“坤”字古文作“巛”,“顺”字偏旁及“川”字,亦“巛”之象形也,故《象传》曰“乃顺承天”,又曰“柔顺利贞”。《文言传》曰:“坤道其顺乎?”《系辞传》曰&am…

数坤科技:AI在医疗影像的应用和探索

机器之心编辑部 3 月 23 日,在机器之心 AI 科技年会上,数坤科技研发副总裁危夷晨发表了主题演讲《AI 在医疗影像的应用和探索》,对 AI 医疗影像行业进行了全面的介绍。 以下为危夷晨在机器之心 AI 科技年会上的演讲内容,机器之心…

周易卦爻解读笔记——大壮

第三十四卦大壮 雷天大壮 震上乾下 大壮卦为消息卦,象征阳盛阴衰。 大壮卦是遁卦的覆卦,序卦传【物不可以终遁,故受之以大壮】 首先说明壮这个字: 武士操戈而立,可以理解为强壮,更多的是要理解为打击&…

重庆大学计算机学院新生综合,重庆大学

随着如火如荼的军训落下帷幕,金秋十月天朗气清,重庆大学2016级本科新生同学正式开始了他们在重庆大学充实多彩的学习生活。2016年10月13日,重庆大学计算机学院领导老师与全体新生见面会在虎溪校区理科楼报告厅隆重召开。学院出席本次大会的主…

世坤投资大学:欲提供数据科学硕士学位的对冲基金

全文共1843字,预计学习时长6分钟 图源:unsplash 随着数据科学、人工智能和机器学习的普及,很多人开始对这一领域产生兴趣,与之相关的学习资源也同比例增长。这些资源来源广泛,既包括YouTube、Github和博客网站等多功能平台上的免费内容,亦包括慕课和在线纳米学位等相对…

周易卦爻解读笔记——坤卦

第二卦坤 坤为地 坤上坤下 坤:元,亨,利牝马之贞。君子有攸往,先迷后得主,利西南得朋,东北丧朋。安贞,吉。 坤卦,初始通达,利于向母马一样正固(意为一直顺从…

官网平台类产品的设计挖掘

参考图例:架构图素材库 -图标库 ToB 产品的官网设计,业务开始综合考虑产品设计在内外各平台上的一致性、高价值运营转化模块的凸显,以及上线后的用户满意度等运营数据。信息传达模式、信息分层逻辑、业务对设计理念的理解成本,成为…

抖音上坤之大强之作是什么意思

抖音坤之大强之作什么意思?最近抖音频繁出现这个词,谢广坤是谁?有很多的网友们都想知道坤之大强之作什么意思,感兴趣的网友们,下面就跟着小编一起来看看吧。 坤之大强之作什么意思 看过电视剧《乡村爱情》的人都知道,谢广坤的…

SLM7.1SR1SP05 配置(configuration guide+ link help) - 03 initial configuration part3

3.8 配置SLD 添加如下一条记录&#xff0c;setup localSLD 使用SOLMAN_ADMIN&#xff08;<password>&#xff09;账户登陆 输入用户名的密码 请注意&#xff0c;在安装SLD之前&#xff0c;如果不是使用的001集团&#xff0c;而是新copy出一个client&#xff0c;请确保JAV…

下载SAP-Approval list中的补丁

1、用SOLMAN_ADMIN登录slm 100系统 2、dswp 3、随便选择解决方案:ZPI_CON 4 变更管理 》 维护优化器 5 选择产品版本 6、 &#xff0c;如果已添加进Approval list 中&#xff0c;可以直接跳入下一步。 7、会转到sap网站的下载篮里。 确认下载

SLM7.1SR1SP05 配置(configuration guide+ link help) - 03 initial configuration part1

根据system preparation界面上方的roadmap&#xff0c;按步来进行系统需求配置。如果roadmap显示为叉号&#xff0c;即此ActiveX插件不可用&#xff0c;那么打开IE的设置&#xff0c;将安全级别调低&#xff0c;允许ActiveX插件&#xff0c;刷新登陆即可。 3.1 创建用户 点击ro…

揭开SAP Solution Manager神秘面纱

在过去10年中&#xff0c;SAP Solution Manager----用以集中支持和系统管理的独特产品。不用说&#xff0c;跨国企业中的典型SAP系统景观一般包括了大量的SAP和非SAP系统。“复杂”的SAP环境&#xff08;或者也叫多种多样的IT景观&#xff09;常常由庞大的跨国企业在全球范围内…

SLM7.1SR1SP05 配置(configuration guide+ link help) - 04 Basic Configuration

4.1 创建solution 4.2 指定用户和连通数据 4.2.1 指定连通数据 指定SID和密码&#xff0c;maintainconnections 4.2.2 指定SAP BW System 我们用的是当前solman系统的900 client。按照configurationguide中的说明进行相关设置。 选择Use SAP BW inSeparate System or Separat…

No system information found in LMDB, can't find Technical system after RZ70

转自&#xff1a;https://archive.sap.com/discussions/thread/3549271 Hello dear Forum, Im facing a problem when register an ERP6.0 IDES system(ES8) to solman 7.1SP11(SMP). I run rz70 in the ERP system and then I find this technical system in SLD, as follows:…