细胞实例分割：DoNet: Deep De-overlapping Network for Cytology Instance Segmentation 论文阅读笔记

一、Abstract
二、引言
三、相关工作
- 细胞学实例分割
- 遮挡实例分割
四、方法
- 4.1 预览
- - 问题概述
  - 工作流程
  - 粗糙的 Mask 分割
- 4.2 解耦合和重组策略
- - 双路径区域分割模块 Dual-path Region Segmentation Module (DRM)
  - 语义一致性引导的重组模块 Semantic Consistency-guided Recombination Module (CRM)
- 4.3 Mask 引导的区域提议 Mask-guided Region Proposal
- 4.4 端到端学习
- - 用合成的细胞簇拓展数据集
  - 整体损失函数
五、实验
- 5.1 实验设置
- - 实施细节
- 5.2 结果
- 5.3 消融实验
- - 网络组件的作用
  - DRM 的设计选择
  - CRM 的设计选择
- 5.4 定性分析和讨论
六、结论

写在前面

新的一周又开始了，冲冲冲~
这是一篇关于医学图像处理的实例分割文章，博主也是第一次阅读这种类型的论文，增长见识，顺便可以和那些医学生们联系联系，整点文章~

论文地址：DoNet: Deep De-overlapping Network for Cytology Instance Segmentation
代码地址：https://github.com/DeepDoNet/DoNet
收录于：CVPR 2023
PS：2023 年每周一篇博文，主页更多干货，欢迎关注，4千粉丝期待有你呦~

一、Abstract

首先表明细胞分割对于生物分析和癌症监视有着重要作用，接着指出现有的一些挑战：大量的半透明细胞簇重叠使得彼此边界混乱；原子核拟态和碎片存在混淆（太专业的术语不好翻译）。于是本文提出一种解耦合-重组策略：De-overlapping Network (DoNet)：提出一种双路径区域分割模块来显式地将细胞簇解耦合为交叉区域；提出一种重组模块来引导整合语义一致性的互补区域；设计一种 Mask 引导的区域提议策略 Mask-guided Region Proposal Strategy (MRP) 来整合细胞注意力图，用于细胞内的实例预测。数据集采用 ISBI2014、CPS。

二、引言

首先指出细胞分割的重要作用，表明问题：数以千计的细胞天然的堆叠，从而造成内部或者外部间的变动。话题一转，表明细胞分割技术的底层重要性。顺势指出现有方法存在的问题：细胞间天然聚集从而导致过度重叠、边界不清晰；背景像素存在很强的干扰，例如气泡等。像 Mask R-CNN 的方法未能建模半透明细胞簇中交互区域和互补区域的联系，从而使得这种跨区域的分割性能不佳。
本文提出一种解耦合-重组的策略用于半透明细胞实例分割，名为 De-overlapping Network (DoNet)，如下图所示：
在这里插入图片描述
对于每个具有多个蜂窝状子区域的细胞簇来说，DoNet 首先通过预测细胞簇的 Mask 来隐式地学习子区域内的隐藏交互，然后通过交互层、互补层、实例层，显式地建模其中的组成成分以及彼此关系。
具体来说，首先采用 Mask R-CNN 得到粗糙的预测图，之后跟着一个双路径区域分割模块 Dual-path Region segmentation Module (DRM) 。之后结合第一阶段的特征以及粗糙的 masks，从而将细胞簇解耦合到交互的以及互补的子区域。然后采用语义一致引导重组模块 semantic Consistency-guided Recombination Module (CRM) 对齐精细化的实例与子区域内的预测 mask。最后采用提出的 Mask 引导的区域提议模块 Mask-guided Region Proposal Module (MRP) 使得模型重点关注于细胞簇内的区域。
贡献总结如下：

提出一种解耦合-重组策略的降重叠网络用于细胞实例分割，提出 DRM 解耦合所有的细胞区域，CRM 隐式、显式地建模细胞组成部分的交互、互补关系；
提出 mask 引导的区域提议模块 MRP，利用细胞注意力图来细化内部细胞簇，施加细胞簇的先验信息到模块内，缓解背景干扰带来的影响；
在 ISBI2014、CPS 数据集上表现很好。

三、相关工作

细胞学实例分割

主要存在的挑战：例如在 ISBI2014 数据集中：细胞聚集成簇、剧烈的背景噪声干扰、半透明重叠的细胞区域。有两种解决这一问题的方式：先分割-后精炼，端到端的训练。但是仍缺乏必要的对重叠区域的感知能力，导致出现混乱的细胞边界。本文提出一种去重叠网络 DoNet，来隐式地或显式地建模完整的实例及其子区域。

遮挡实例分割

像 Mask R-CNN 并不能解决遮挡问题，于是具有能够感知和推理能力的模型出现了，称之为 amodal perception，相应的实例分割模型称之为 amodal instance segmentation，例如 Occlusion R-CNN (ORCNN) 、BCNet、ASBU。
这些模型本质上旨在增强 amodal 的感知和推理能力。这些方法重点关注从部分可见区域中推理到不可见区域，而本文提出的方法旨在解决交互区域和互补区域的不一致问题。

四、方法

4.1 预览

问题概述

给定包含 $K$ 张图像的数据集，对应的标注为 $\mathcal{D}=\left\{\left(\mathcal{X}_{k},\mathcal{Y}_{k}\right)\right\}_{k=1}^K$ ，其中每个标注包含 bounding boxes(BBox) $\mathcal{B}_k=\{b_{k,i}\}_{i=1}^{N_k}$ ，目标类别 $\mathcal{C}_k=\{c_{k,i}\}_{i=1}^{N_k}$ ，相应的实例 mask $\mathcal{E}_k=\{e_{k,i}\}_{i=1}^{N_k}$ ，其中 $N_k$ 为第 $k$ 张图像的实例数量。本文重点关注分割细胞实例 $c_{k,i}\in\{\text{nuclei},\text{cytoplasm}\}$ 中的细胞核和细胞质。对于每一个细胞簇，基于其细胞间的位置关系，通过逻辑操作将其 Mask 解耦合为交集区域 $\mathcal{O}_k=\{o_k,i\}_{i=1}^{N_k}$ 和互补区域 $\mathcal{M}_k=\{m_{k,i}\}_{i=1}^{N_k}$ ，从而建模彼此之间的关系。

工作流程

在这里插入图片描述
采用 Mask R-CNN 为基础模型，后面跟着 Dual-path Region segmentation Module (DRM)：将实例特征作为交互层和互补层的输入来预测细胞质的交集区域 $\hat{O}_{k,i}$ 和互补区域 $\hat{m}_{k,i}$ 。然后根据相应的位置关系解耦合后，采用一致性引导的重组模块和 RoIAlign 模块来归一化 DRM 的输出实例特征，并产生重组后的 masks $\hat{e}^r_{k,i}$ 。之后，重组后的细胞质 mask 通过 Mask-guided
Region Proposal (MRP) 作为先验信息用于细胞簇内的目标检测。

粗糙的 Mask 分割

讲述下 Mask R-CNN 的流程：FPN + RPN，通过 RoIAlign 产生 RoI 特征 $f_{k,i}^{roi}$ ，通过检测头产生类别 $\hat{c}_{k,i}$ 和 BBox $\hat{b}_{k,i}$ ，通过实例 Mask 头产生 $\hat{e}^c_{k,i}$ 。其中 $\hat{e}^c_{k,i}$ 可能包含混乱的边界，于是将 $\hat{e}^c_{k,i}$ 视为粗糙的 Mask，为后续的 DRM 子区域解耦合提供先验信息并抑制背景噪声。训练损失如下：
$\mathcal L_{coarse}=\mathcal L_{reg}+\mathcal L_{cls}+\mathcal L_{cmask}$ 其中 $L_{reg}$ 为 BBox 回归损失，smooth-L1， $L_{cls}$ 为类别分类的 cross-entropy(CE) 损失， $L_{cmask}$ 为分割的逐像素 CE 损失。

4.2 解耦合和重组策略

双路径区域分割模块 Dual-path Region Segmentation Module (DRM)

DRM 由一个交互 Mask 头 $H_o$ 和一个同样结构的互补 Mask 头 $H_m$ 组成。令 $f_{k,i}^{c}$ 表示 Mask 头输入的语义特征。 $H_o$ 和 $H_m$ 采用拼接后的 $f_{k,i}^{roi}$ 和 $f_{k,i}^{c}$ 作为输入，来预测细胞簇中的交集和互补区域 $\hat {o}_{k,i}$ ， $\hat{m}_{k,i}$ 。具体来说，每个头由 4 个卷积层组成，产生 $14\times14\times256$ 的特征，接着一个反卷积层生成 $28\times28\times1$ 的语义 mask。在所有头中增加逐像素 CE 损失来显式地构建解耦合：
$\mathcal{L}_{dec}=\frac{1}{K}\sum_{k=1}^{K}\frac{1}{N_k}\sum_{i=1}^{N_k}\left(\mathcal{L}_{ce}(\hat{o}_{k,i},o_{k,i})+\mathcal{L}_{ce}(\hat{m}_{k,i},m_{k,i})\right)$

语义一致性引导的重组模块 Semantic Consistency-guided Recombination Module (CRM)

令 $f_{k,i}^{o}$ 和 $f_{k,i}^{m}$ 分别表示交互 mask 头和互补 mask 头最后一层之前的输入特征，这两种特征作为残差信息而融合到 $f_{k,i}^{roi}$ 中，之后输入给 mask 头。然后复用 Mash 头 $H_i$ 来预测整个的实例。CRM 产生的精细化的 mask $\hat {e}_{k,i}^r$ 采用分割损失 $\mathcal{L}_{rmask}$ 优化：
$\mathcal{L}_{rmask}=\frac{1}{K}\sum_{k=1}^K\frac{1}{N_k}\sum_{i=1}^{N_k}\mathcal{L}_{ce}(\hat{e}_{k,i}^r,e_{k,i})$ 此外，在重组的 mask $\hat {e}_{k,i}^r$ 和融合 $\hat {o}_{k,i}$ 以及 $\hat {m}_{k,i}$ 的预测间增加一个语义一致性正则化：
$\mathcal{L}_{cons}=\frac{1}{K}\sum_{k=1}^{K}\frac{1}{N_k}\sum_{i=1}^{N_k}\mathcal{L}_{ce}\big(\hat{e}_{k,i}^r,\mathcal{F}_{merge}\big(\hat{o}_{k,i},\hat{m}_{k,i}\big)\big)$ 其中 $\mathcal{F}_{merge}$ 表示交集区域与互补区域在融合单元 $x or ()$ 上的融合操作，之后两个子区域的 mask 穿过 Sigmoid 函数用于正则化。然后计算两个 Mask logits 的掩码异或，以合并彼此并抑制冗余的像素。

4.3 Mask 引导的区域提议 Mask-guided Region Proposal

进一步提出 Mask 引导的区域提议 Mask-guided Region Proposal (MRP) 来促进模型在细胞簇区域内部生成原子级别的 Proposals。
对每个图像，在 CRM 中，聚合所有的重组实例预测 $\hat{e}_{k,i}^r$ 到一个语义 mask $\hat {M}_k$ 。然后根据 BBox 预测 $\hat{b}_{k,i}$ 将其映射并求和，得到原始的预测。之后跟着一个 Sigmoid 函数归一化到概率图 $\hat {M}_k$ ，最后通过原始 FPN 中的逐元素乘积对特征 $f_k$ 进行加权：
$f_k^w=\hat{M}_k\circ f_k$ 其中 $f_k^w$ 为 MRP 中用于原子级别预测的重加权后的特征。于是细胞外的像素被抑制，减少了假阳性样本。此外，MRP 在不同阶段建立了信息交互，自然促进了信息的表示能力。

4.4 端到端学习

用合成的细胞簇拓展数据集

半透明的细胞特性减轻了高度重叠的影响，但是标注以及标注中存在的噪声使得建立大规模数据集很难。
为解决这一问题，本文提出一种实例增强方法用于重叠的细胞数据增强，能够产生大量的合成细胞簇，并且可以基于标注的细胞簇实例，自由地控制重叠比率和透明度。但为了公平，在下面的比较中并未使用这一合成数据集。

整体损失函数

以监督方式训练提出的细胞实例分割框架：
$\mathcal{L}=\mathcal{L}_{coarse}+\lambda_{dec}\mathcal{L}_{dec}+\lambda_{rmask}\mathcal{L}_{rmask}+\lambda_{cons}\mathcal{L}_{cons}$ 其中 $\mathcal{L}_{coarse}$ 为用于 RoI 提取和粗糙预测的 mask 预测损失， $\mathcal{L}_{dec}$ 为交叉区域和互补区域分割图的解耦合损失， $\mathcal{L}_{rmask}$ 为细化后的 mask 分割损失， $\mathcal{L}_{cons}$ 为整个实例和子区域的语义一致损失， $\lambda_{dec}$ 、 $\lambda_{rmask}$ 、 $\lambda_{cons}$ 为分别控制每个部分的超参数。

五、实验

5.1 实验设置

数据集：ISBI2014、CPS；
评估指标：aggregated Jaccard index (AJI)、average Dice coefficient (Dice)、F1-score (F1)、mean of Average Precision (mAP)、object-based false negative rate ( ${\text{FN}_o}$ )、pixel-based true positive rate ( ${\text{TP}_p}$ )。