Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text

article/2025/9/10 21:14:02

Paper : https://arxiv.org/abs/1912.09629v1

Code : https://tinyurl.com/sbdnet

SBD首先将四边形边框离散为几个关键边缘，其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置，提出了一种简单而有效的匹配程序来重构四边形边界框。

基本思想是利用与标签序列无关的不变表示形式（例如，最小x，最小y，最大x，最大y，平均中心点和对角线的相交点）来反推边界框坐标。为了简化参数化，SBD首先查找所有包含顶点的离散水平和垂直边。然后学习序列标记匹配类型以找出最佳拟合的四边形。摆脱了训练目标的模糊性。

贡献

第一个根据四边形边界框的顺序解决文本检测歧义的方法，这对于实现良好的检测精度至关重要
方法的灵活性使其可以利用几个关键的改进，这些改进对于进一步提高准确性至关重要。我们的方法在各种场景文本基准（包括ICDAR 2015 和MLT）上均达到了最先进的性能。此外，我们的方法在最近的 ICDAR2019 Robust Reading Challenge on Reading Chinese Text on Signboard 中赢得了文本检测任务的冠军
方法经过有效的改进，也可以推广到航空图像中的船舶检测。 TIoU-Hmean的显着改进进一步证明了我们方法的鲁棒性。

Method

所提出的方法是基于 MaskR-CNN 的。

主要组成：Sequential-free Box Discretization（SBD） + Math-Type Learning（MTL） + Re-scoring and Post Processing（RPP）

在这里插入图片描述

无序列边框离散化 SBD

在这里插入图片描述

目的：SBD block 将四边形框离散为8个关键边缘（KEs）。这些关键边缘由有序无关点组成，即最小x（ $x_{min}$ ）和y（ $y_{min}$ ）；第二个最小的x（ $x_2$ ）和y（ $y_2$ ）; 第二大x（ $x_3$ ）和y（ $y_3$ ）; 以及最大x（ $x_{max}$ ）和y（ $y_{max}$ ）。使用 x-KEs 和 y-KEs 分别表示 $x_{min}，x_2，x_3，x_{max}]$ 和 $y_{min}，y_2，y_3，y_{max}]$

原理： RoIAlign处理的 proposal 被送入SBD块，在该块中，特征图通过一系列卷积层；然后再对这些特征进行2倍的上采样，并将来自反卷积的输出特征图 $F_{out}$ 限制为 $M \times M$ 大小。然后，使用两个具有4个通道的 $1 \times M$ 和 $M \times 1$ 的卷积核来缩小水平和垂直特征分别为 x-KEs 和 y-KEs 。最后，通过最小化 $M$ 方向 SoftMax 输出上的交叉熵损失 $L_{ke}$ 来训练SBD模型，其中，将真实值 KEs 的对应位置对应到每个输出通道。

由于RoI的限制，SBD不能直接学习 x-KEs 和 y-KEs。原始的 Mask R-CNN 框架仅学习预测 RoI 区域内的目标对象，并且不能恢复 RoI 之外的对象部分丢失的像素。因此，为解决此问题，在训练时将 x-KEs 和 y-KEs 编码为 “half lines” 形式，x-KEs $x^i \in [x_{min}，x_2，x_3，x_{max}]$ ，y-KEs $y^i \in [y_{min}，y_2，y_3，y_{max}]$ 。
$x_{half}^i = \frac{x^i + x_{mean}}{2} \\ y_{half}^i = \frac{y^i + y_{mean}}{2}$
其中， $x_{mean}, y_{mean}$ 分别表示 x 轴和 y 轴的 gt 边界框的平均中心点的值。通过采用这样的训练策略，所提出的SBD块可以打破RoI的限制，即在大多数情况下，即使文本实例的边界位于RoIs之外，由于 $x_{half}$ 和 $y_{half}$ 落入RoIs区域，文本实例的完整也可以得到保证。

与Mask R-CNN类似，检测器是在多任务方式下进行训练的。所以损失函数由四部分下组成：
$L = L_{cls} + L_{box} + L_{mask} + L_{ke}$
$L_{cls}, L_{box}, L_{mask}$ 与 Mask RNN一样， $L_{ke}$ 表示学习关键边缘预测任务的交叉熵损失。

匹配类型学习(MTL)

在这里插入图片描述

SBD只是学习了预测 8 条线的数值，但是忽视了怎么在 x-KEs 和 y-KEs 之间进行连接。所以提出了 MTL 从关键边重构四边形边界框。

目的： SBD输出得到 4 个 x-KEs 和 4 个 y-KEs，每个 x-KEs 应该匹配一个 y-KEs 构成一个角点，然后得到四个角点就是最终的边界框的顶点的预测。构成的不同的角点会有不同的结果，总共有 $A_4^4 = 24$ 种可能。例如在下图中预测的匹配类型应该是 $x_{min}, y_3), (x_2, y_{max}), (x_{max}, y_2), (x_3, y_{min})]$ ，这就应该是最终的预测。

原理： 将SBD的两个生成 x-KEs 和 y-KEs 的特征图拼接在一起，通过 1x1 的卷积层后进行分类，24类分类任务。该方法中 MTL 头是通过最小化交叉熵损失来训练的。

在这里插入图片描述

重新评分和后处理(RPP)

检测器有时可以为错误正样本输出高置信度分数，为了抑制不合理的错误正样本，提出了 RPP。

在RPP中，首先基于8个KEs计算SBD得分 $S_{SBD}$ ：
$S_{SBD} = \frac{1}{K} \sum_{k=1}^K \max_{v^k} f(v^k)$
其中 $K = 8$ 是 KEs 的数量。尽管在大多数情况下， $S_{SBD}$ 的分布显示出一个单峰模式，但峰值仍显着低于1。因此，我们对每个关键边缘分数的4个相邻分数求和，以使其接近峰值，以避免置信度过低。假设 $v_k$ 是第 $k$ 个关键边的输出得分矢量，则函数 $f(v^k)$ 定义为峰值 $v_i$ 及其邻居的和：
$v^k = [v_1, v_2, \dots, \underbrace{v_{i-2}, v_{i-1}, v_i, v_{i+1}, v_{i+2}}_{f(v^k) = \sum_{p=max(i-2,1)}^{P=min(n,n+2)}(v_p)}, \dots,v_n]$
应当注意，如果峰值位于向量的头部或尾部，则相邻值的数量将小于4，因此在这种情况下，仅存在的邻居会被计数。最后，可以通过以下方法获得精确的置信度：
$score(\mathfrak{R}) = \frac{(2-\gamma)S_{box} + \gamma S_{SBD}}{2}$
其中 $\leq \gamma \leq 2$ 。 $S_{box}$ 是bbox的原始 Softmax置信度。通过将 $S_{SBD}$ 计入最终分数，它可以根据 8 个KEs的得分进行调整。