EAST算法简单解析

article/2025/10/6 23:54:07

前言

最近写了很多算法代码的解析，但是却很少写原理的解析，这段时间学得快忘得也快，所以寻思这几天写几篇学过算法的原理，可能不是很详细但是一定很简单，利于理解。

算法介绍

EAST: An Efficient and Accurate Scene Text Detector 这就是算法的原名，翻译过来的意思大概就是一个精确高效的场景文本检测器。对于一个算法我们一般观测他几点：

1》他能做神魔？
答：这个问题件他的名字我们就可以看出：用来检测自然场景中的文本，然后将它框选出来。

2》他有什么优点？
答：这个问题需要多说一点，首先我们说他的最突出的一个优点，在学习过其他算法以后（当然也没几个）我们发现大多预先画框的算法都有一个问题，他只能画一些中规中矩的方形框，也就是只能处理一些对文本正面处理的图片，如果拍摄角度不好，导致文本是倾斜的画框效果就不那么理想，EAST就提出了旋转框和平行四边形框就解决了这个难题，从而真正意义上实现了所谓的自然场景检测，这是他的第一个优点。然后，我们说他的第二个优点，首先他是一个二阶段算法：一阶段基于全卷积神经网络（FCN），直接产生文本框预测。第二阶段是NMS操作产生最后的结果。这里我们就要引出他的优点了，比一阶段算法精确，比一般的二级段算法快。这也是大多数人前仆后继本向这个算法的原因。好吧这里是两个优点，我的错。

网络框架

看图：在这里插入图片描述
图片结构很简单我们把它看为三个阶段：特征提取，特征合并和输出层。
1》特征提取：特征提取就是最左边这一列黄色部分，首先要是想理解这部分就要理解一个概念：感受野，的相信这个概念并不陌生，而要是理解感受野，就要先理解卷积神经网络的特征提取方式。众所周知卷积神经网络的特征提取方式的方式是用卷积核在一张特征图上平移来提取特征，假设我们在原图上用一张33的的卷积核来提取特征，那么我们就得到了原图上像素为9的感受野，随之产生新的特征图，不过新的特征图尺寸变小不少。然后，当我们在新的特征图上再次用一个33的卷积核进行特征提取，这次就获得了新的感受野，那么这次感受野是多少呢？在不考虑步长，padding的情况下我们大致可以考虑为99=81，这是为神魔呢，首先根据卷积的原理新的特征图的每一个特征点来自于原来的九个特征点（这里说一下，其实要说是严格考虑padding，步长，和其他因素最后不是这个数字，这里只是用来说明感受野所以大家不用太过苛求），那么当我们再次用33的卷积核进行特征提取时就获得了81的感受野。也就是说随着卷积的深度加深或者说特征图的变小（如果有padding不一定会变小这里是对本算法来说）感受野不断加深。然而，我们这一层的目的就是提取不同阶段的特征图，也就是不同感受野的特征图那么不同的感受野能干神魔呢，其实很显然就是可以关注不同大小的文本。这块就算说完了下面让我们进入下一层。

2》特征合并：特征合并层就是我们看到的中间绿色一列，刚才我们谈到了不同感受野的特征图首先这些特征图的大小分别是1/4，1/8，1/16和1/32这就是我们这特征合并层的原料我们这一层要做的就是，把相对较小的特征图通过反卷积操作然后和大一倍的特征图合并然后通过3*3的卷积核。比如把1/32的特征图反卷积成1/16然后与1/16的特征图合并。于是随后我们就完成了所有不同大小的特征图合并起来，这让我们在最后的特征图上拥有了多种不同的特征信息。

3》输出层：输出层是最右边的蓝色部分经过若干个1*的卷积操作而得，输出包括这几部分：score map：检测框的置信度，1个参数；text boxes：检测框的位置（x, y, w, h），4个参数；text rotation angle：检测框的旋转角度，1个参数；（这里这两个参数是一组，最终的组合情况是一个带角度的旋转矩形框）text quadrangle coordinates：任意四边形检测框的位置坐标，(x1, y1), (x2, y2), (x3, y3), (x4, y4)，8个参数。（这块是四边形框，不是矩形多是平行四边形）

NMS （非极大值抑制）操作

这个操作是EAST的最后部分，所做的工作就是筛选，为了使原理更简单些，我们就是简单说一下，由于训练的各种因素对于一个目标我们可能输出好几个预测框，他们有大有小有长有窄，这些框对于同一个目标，自然只应该只有一个真值框与之对应。那么我们靠什么来判断他们谁是正确的呢，这里又有了一个新的概念：IOU，其实简单说就是重合面积。也可以说是我们得到的分数。如下图所示：
在这里插入图片描述
我们所做的就是把分数最高的那个挑出来然后删掉其他的，其实挑出最大的那个很简单，但是有一个问题就比较棘手，那就是我们如何判断其他的框和他同属于一个目标呢，或者说如何判断是否剔除干净呢。其实很简单，我们把其他的框和最大的框再做一次IOU操作，如果重合值大于一定值就认为两者同属于一个目标的预测框，这样一来就可以删除其他预测框得到分数最大的那个唯一预测框了。