TextSnake文本检测

article/2025/9/10 16:51:50

论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》

(1) 数据集

文章中提到了4个数据集:

1) Total-Text;(新开源曲线文本数据集)

2) SCUT-CTW1500; (新开源曲线文本数据集)

3) ICDAR 2015;(经典数据集)

4) MSRA-TD500.(经典数据集)

(2) 文本检测总体评述:

现有文本检测方法有一个共同的假设:

  1. 文本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);
  2. 处理不规则形状的文本实例时,依然会暴露问题;
  3. 对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;
  4. 文本实例不同表征方法的对比,图a是轴对齐矩形,图b是旋转矩形,图c是四边形;图d是TextSnake。

TextSnake文章的贡献:

  1. 本文提出一种灵活而通用的表征,可用于任意形状的场景文本;
  2. 提出一种有效的场景文本检测方法;
  3. 该方法在包含若干个不同形式(水平,多方向,曲形)的文本实例数据集取得了最优效果。

(3) TextSnake方法

表征方法:

  1. TextSnake图示

  1. 说明:将一个文本区域(黄色表示)表征为一系列有序而重叠的圆盘(蓝色),其中每个圆盘都有一个中心线(绿色,即对称轴或骨架)贯穿,并带有可变的半径 和方向 ;
  2. 从数学公式上分析,包含若干个字符的文本实例t可以被看作是一个序列S(t), ,其中 表示第i个圆盘,n表示圆盘的数量,每个圆盘D带有一组几何属性,r被定义为t的局部宽度的一半,方向 是贯穿中心点c的中心线的正切;
  3. 注意:圆盘并非一一对应于文本实例的字符,但是圆盘序列的几何属性可以改正不规则形状的文本实例,并将其转化为对文本识别器更加友好的矩形等;

Pipeline

  1. 方法框架图
  2. 为检测任意形状的文本,借助FCN模型预测文本实例的几何属性。基于FCN的网络预测文本中心线(TCL),文本区域(TR)以及几何属性(包括r, , )的分值图;由于TCL是TR的一部分,通过TR而得到Masked TCL,假定TCL没有彼此重合,需要借助并查集(disjoint set)执行实例分割,Striding Algorithm用于提取中心轴点,并最终重建文本实例。

网络架构:

  1. 图例所示

  1. 在FPN和U-net的启发下,本文提出一个方案,可逐渐融合来自主干网络不同层级的特征;
  2. 主干网络可以是用于图像分类的卷积网络,比如VGG-16/19和ResNet,这些网络可以被分为5个卷积阶段和若干个额外的全连接层;
  3. 本文移除全连接层,并在每个阶段后将特征图馈送至特征融合网络。

预测

  1. 后处理算法图例:后处理算法框架。 法案(a)集中:将给定点重新定位到中心轴; 法案(b)跨越:对文本实例末尾的定向搜索; 动作(c)滑动:通过沿中心轴滑动圆形来重建;

  1. 馈送之后,网络输出TCL,TR以及几何图,对于TCL和TR,阈值分别设为T_tcl和T_tr,接着,TCL和TR的交叉点给出TCL最后的预测。通过并查集,可以有效把TCL像素分割进不同的文本实例。最后,StridingAlgorithm被设计以提取用来表示文本实例形状和进程(course)的有序点,同时重建文本实例区域;
  2. StridingAlgorithm的流程如上图所示。它主要包含3个部分:Act(a)Centralizing,Act(b)Striding和Act(c)Sliding。首先,本文随机选择一个像素作为起点,并将其中心化。接着,搜索过程分支为两个相反的方向——stridingcentralizing直到结束。这一过程将在两个相反方向上生成两个有序点,并可结合以生成最终的中心轴,它符合文本的进程,并精确描述形状。

?? TCL网络预测文本中心线,非常窄,这样做有什么好处?不会对文本检测出现边缘没有覆盖的问题么?

!!结果图示

TextSnake对于文本实例的进程及形状的精确描述具有预测的能力,而这一能力来自于对TCL进行预测,它比整个文本实例窄很多,这样做有两个优点:

  1. 纤细的 TCL 可以更好地描述进程和形状;
  2. TCL 彼此不会重叠,因此实例分割得以一种十分简单而直接的方式完成,由此简化 pipeline.

(4)实验结果

Total-Text

CTW1500

MSRA-TD500

ICDAR 2015


http://chatgpt.dhexx.cn/article/bkti5Vi4.shtml

相关文章

值得一看的文本检测方法

点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达 前 言 目前深度学习方法做文本检测比较普遍,但是也存在一些时候GPU资源不够,这时候就需要一些其他的方法来检测文本信息,本文主要介…

文本检测与识别

基于Advanced_EAST的文本检测算法 Advanced_EAST算法使用全卷积网络结构,输入图像通过全卷积神经网络后直接获得候选文本的位置,再通过非极大值抑制算法(Non-Maximum Suppression,NMS)获得最后的文本检测结果。 网络…

OCR文本检测模型—EAST

文章目录 一、EAST模型简介二、EAST模型网络结构三、EAST模型效果四、Advanced EAST 典型的文本检测模型一般是会分多个阶段(multi-stage)进行,在训练时需要把文本检测切割成多个阶段(stage)来进行学习,这种…

文本检测算法新思路:基于区域重组的文本检测

摘要:文本检测是文本读取识别的第一步,对后续的文本识别有着重大的影响。本文主要介绍基于区域重组的文本检测算法。 本文分享自华为云社区《技术综述十三:弯曲文本检测算法(一)》,作者: 我想静静 。 背景…

OCR文本检测模型—CTPN

文章目录 一、CTPN简介二、CTPN检测流程三、小结 一、CTPN简介 一个简单的文字识别流程如下: Step 1. 通过手机、摄像机、扫描仪等设备采集含有待识别字符的图像,作为输入; Step 2. 对图像进行尺寸缩放、明暗调整、去噪等预处理操作&#…

OpenCV实战——文本检测

OpenCV实战——文本检测 tesseract的安装代码实践将图片中的内容识别打印,并绘制边框单词(word)检测只进行数字识别 tesseract的安装 首先说一下下官网的地址:下载地址 大家根据自己的操作系统(是32位还是64位&#…

【文本检测与识别白皮书-3.1】第一节:常用的文本检测与识别方法

点击领取AI产品100元体验金:https://www.textin.com/coupon_redemption/index.htmlhttps://www.textin.com/coupon_redemption/index.html # 3.常用的文本检测与识别方法 ## 3.1文本检测方法 随着深度学习的快速发展,图像分类、目标检测、语义分割以及实…

paddleocr文本检测模型的训练

1、环境的安装和开源项目的下载 首先我个人建议,玩深度学习的话,不管是工作还是学习,最起码要配一个有GPU的电脑。我个人有着血淋淋的教训,我本人是电气工程的一名学生,本科期间一点深度学习和机器学习的基础都没有&am…

文本检测实战:使用OpenCV实现文本检测(EAST 文本检测器)

在本教程中,您将学习如何使用 OpenCV 使用 EAST 文本检测器检测图像中的文本。 EAST 文本检测器要求我们在我们的系统上运行 OpenCV 3.4.2 或 OpenCV 4 。 论文原文:https://arxiv.org/abs/1704.03155 代码地址:https://github.com/argman/…

脏话文本检测方案

目录 1. 场景2. 方案3. 数据增强4. 代码 1. 场景 在问答系统中用户问题可能存在违规情况,包含涉政、色情、辱骂文字的文本视为违规文本。本文提出一种违规文本检测方案, 本方案仅限于判断文本是否包含违规内容,属于文本分类问题。 2. 方案 方…

OCR文本检测模型:FCENet论文阅读笔记

文章目录 前言摘要(Abstract)1. 介绍(Introduction)2. 相关工作(Related Work)3. 方法(Approach)3.1 傅里叶轮廓嵌入(Fourier Contour Embedding)3.2 FCENet 4.实验(Experiments)总结 前言 最近…

文本检测数据集标注

工具链接:Curve-Text-Detector/data at master Yuliang-Liu/Curve-Text-Detector GitHub 目录 前言 一、工具介绍 1.标注格式 2.工具使用 二、标注步骤 1.数据准备 2.数据标注 3.数据集label可视化 总结 前言 本次介绍的标注方式和标注工具均为2017年华南…

AI实战:2019、2020最新的中文文本检测检测模型

2019、2020最新的中文文本检测检测模型 1、DBNet(Real-time Scene Text Detection with Differentiable Binarization) 论文地址:https://arxiv.org/pdf/1911.08947.pdf 作者:华中科技大学 Minghui Liao 1∗ , Zhaoyi Wan 2∗ ,…

人工智能学习--文本检测初探

一、相关概念和综述: 转自知乎热心网友 燕小花女士的内容,供学习使用,若侵权则删。貌似写于2018年12月,之后这几年的流行方法更新,自行搜索sci顶刊和会议论文。 https://zhuanlan.zhihu.com/p/52335619 文本检测的难…

文本检测综述(2017 ~ 2021)

文本检测综述 文本检测传统方法文本检测深度方法目标检测文本检测1.【ECCV2016】CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network)2. 【CVPR2017】SegLink(Detecting Oriented Text in Natural Images by li…

文本检测算法----TextFuseNet(IJCAI-PRICAI-20)

多种文本检测算法性能对比及算法介绍 (https://blog.csdn.net/qq_39707285/article/details/108754444) TextFuseNet: Scene Text Detection with Richer Fused Features 前言1. 算法简介2. 算法详解2.1 网络结构2.2 Multi-level Feature Representation2.3 Multi-path Fusion …

Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text

Paper : https://arxiv.org/abs/1912.09629v1 Code : https://tinyurl.com/sbdnet SBD首先将四边形边框离散为几个关键边缘,其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置,提出了一种简单而有效的匹配程序来重构四边形边界框。 基本思想是…

文本检测模型综述

之前做车牌检测使用文本检测模型,如east、ctpn和textboxes,但是效果不是很好,需要针对车牌专门训练。后面就采用ssd和yolo进行车牌的检测,但是车牌有时是旋转的,使用ssd和yolo模型无法对车牌的四个点进行精确定位&…

OCR系列——文本检测任务

1. 简介 文本检测任务是找出图像或视频中的文字位置。不同于目标检测任务,目标检测不仅要解决定位问题,还要解决目标分类问题。 目标检测和文本检测同属于“定位”问题。但是文本检测无需对目标分类,并且文本形状复杂多样。 当前所说的文本…

文本检测(Text Detection)简要综述

文章目录 检测(Detection)在计算机视觉中的位置检测任务经典数据集评价指标发展历史什么叫Anchor检测架构RPNFPN(特征金字塔网络) 几个文本检测的较新方法FOTS(【2018CVPR】Fast Oriented Text Spotting with a Unified Network)TextSnake(【2018ECCV】 TextSnake: A Flexible …