一、unet

简介

继承FCN的思想，继续进行改进。但是相对于FCN，有几个改变的地方，U-Net是完全对称的，且对解码器（应该自Hinton提出编码器、解码器的概念来，即将图像->高语义feature map的过程看成编码器，高语义->像素级别的分类score map的过程看作解码器）进行了加卷积加深处理，FCN只是单纯的进行了上采样。
Skip connection：两者都用了这样的结构，虽然在现在看来这样的做法比较常见，但是对于当时，这样的结构所带来的明显好处是有目共睹的，因为可以联合高层语义和低层的细粒度表层信息，就很好的符合了分割对这两方面信息的需求。
联合：在FCN中，Skip connection的联合是通过对应像素的求和，而U-Net则是对其的channel的concat过程。

在这里插入图片描述
特征提取部分，每经过一个池化层就一个尺度，包括原图尺度一共有5个尺度。
上采样部分，每上采样一次，就和特征提取部分对应的通道数相同尺度融合，但是融合之前要将其crop。这里的融合也是拼接。

由于UNet也和FCN一样, 是全卷积形式, 没有全连接层(即没有固定图的尺寸),所以容易适应很多输入尺寸大小,但并不是所有的尺寸都可以,需要根据网络结构决定, 在U-Net中, 池化是2x2的且是valid策略,即没有padding，因此要保证输入的图像在经过每一次池化的时候都要是边长偶数。所以要特别注意输入图像的尺寸。一个比较好的方法是从最小分辨率(分辨率就是feature map的尺寸)出发沿收缩路径的反方向进行计算，得到输入图像的尺寸。

创新点

overlap-tile策略
在U-Net结构中,卷积全程都使用valid来进行卷积,该卷积的特点就是没有padding, 即padding = 0,所以特征图(feature map)会越卷越小,它不会越卷越大,导致了最后输出的尺寸回不到原来输入的尺寸。
使用valid的原因：不想给每层卷积加padding（连续对feature map加padding卷积，会使得padding进来的feature误差越来越大，因为越卷积，feature的抽象程度越高，就更容易受到padding的影响。
办法：简单地说, 就是在预处理中,对输入图像进行padding, 通过padding扩大输入图像的尺寸，使得最后输出的结果正好是原始图像的尺寸, 同时, 输入图像块（黄框）的边界也获得了上下文信息从而提高预测的精度。可对任意大的图像进行无缝分割. 而这种方法通常需要将图像进行分块(patch)的时候才使用。
那么为什么要对图像分块(patch)再输入，而不是直接输入整张图像呢？因为内存限制，有的机器内存比较小，需要分块。然后再通过Overlap-tile 策略将分块图像进行预处理扩大输入尺寸.

总之,U-Net作者创新的Overlap-tile 策略，这种方法用于补全输入图像的上下信息，也可以解决由于现存不足造成的图像输入的问题。
加权loss
作者通过预先计算权重图的来获得每一个像素在损失函数中的权值，这种方法补偿了训练数据每类像素的不同频率，并且使网络更注重学习相互接触的细胞间的边缘。分割边界使用形态学运算。

二、UNet++

简介

可看原作者在知乎的回答：https://zhuanlan.zhihu.com/p/44958351
在这里插入图片描述
显然它的优势是可以抓取不同层次的特征,将它们通过特征叠加的方式整合. 不同层次的特征，或者说不同大小的感受野，对于大小不一的目标对象的敏感度是不同的，比如，感受野大的特征，可以很容易的识别出大物体的，但是在实际分割中，大物体边缘信息和小物体本身是很容易被深层网络一次次的降采样和一次次升采样给弄丢的，这个时候就可能需要感受野小的特征来帮助.而UNet++就是拥有不同大小的感受野,所以效果好.
如果你横着看其中一层的特征叠加过程，就像一个去年很火的DenseNet的结构，非常的巧合，原先的U-Net，横着看就很像是Residual的结构，这个就很有意思了，UNet++对于U-Net分割效果提升可能和DenseNet对于ResNet分类效果的提升，原因如出一辙，因此，在解读中作者他们也参考了Dense Connection的一些优势，比方说特征的再利用等等.

创新点

这个结构在反向传播的时候, 如果只用最右边的一个loss来做的话, 中间部分会收不到过来的梯度，导致无法训练, 解决的办法除了用短连接的那个结构外,还有一个办法就是用深监督(deep supervision).如下图所示,具体的实现操作就是在图中 X0,1 、X0,2、 X0,3 、X0,4后面加一个1x1的卷积核，相当于去监督每个level，或者说监督每个分支的U-Net的输出。这样可以解决那个结构无法训练的问题.

虽然通过加入短连接解决了无法训练的问题,但是作者仍然把deep supervision加入到UNet++中，因为这会带来一个非常棒的优势,就是剪枝。
在这里插入图片描述

关注被剪掉的这部分，你会发现，在测试的阶段，由于输入的图像只会前向传播，扔掉这部分对前面的输出完全没有影响的，而在训练阶段，因为既有前向，又有反向传播，被剪掉的部分是会帮助其他部分做权重更新的。即测试时，剪掉部分对剩余结构不做影响，训练时，剪掉部分对剩余部分有影响。因为在深监督的过程中，每个子网络的输出都其实已经是图像的分割结果了，所以如果小的子网络的输出结果已经足够好了，我们可以随意的剪掉那些多余的部分

小结：UNet++的第一个优势就是精度的提升，这个应该是它整合了不同层次的特征所带来的，第二个是灵活的网络结构配合深监督，让参数量巨大的深度网络在可接受的精度范围内大幅度的缩减参数量。

三、UNet3+

简介

指出unet++没有从多尺度中表达足够的信息，仍然有很大的改进空间。

unet3+利用了全尺度的跳跃连接(skip connection)和深度监督(deep supervisions)。全尺度的跳跃连接把来自不同尺度特征图中的高级语义与低级语义结合;而深度监督则从多尺度聚合的特征图中学习层次表示。本文所提出的方法特别适用于不同规模的器官。除了提高精度外，所提出的UNet 3+还可以减少网络参数，提高计算效率。此外,我们还进一步提出了一种混合损失函数，并设计了一个classification-guided module来增强器官边界和减少非器官图像的过度分割，从而获得更准确的分割结果。

创新点

Full-scale Skip Connections

所提出的全尺寸跳跃连接改变了编码器和解码器之间的互连以及解码器子网之间的内连接。无论是连接简单的UNet，还是连接紧密嵌套的UNet++，都缺乏从全尺度探索足够信息的能力，未能明确了解器官的位置和边界。为了弥补UNet和UNet++的缺陷，UNet 3+中的每一个解码器层都融合了来自编码器中的小尺度和同尺度的特征图，以及来自解码器的大尺度的特征图，这些特征图捕获了全尺度下的细粒度语义和粗粒度语义。
Full-scale Deep Supervision
在UNet++中用到了深度监督(Deep supervision)，如下图所示UNet++的深度监督，它对生成的全分辨率特征图(全分辨率=最后分割图的分辨率)进行深度监督。具体的实现操作就是在图中 X0,1 、X0,2、 X0,3 、X0,4后面加一个1x1的卷积核，相当于去监督每个level，或者说监督每个分支的UNet的输出。

为了从全尺度的聚合特征图中学习层次表示，UNet 3+进一步采用了全尺度深度监督。不同于UNet++，UNet 3+中每个解码器阶段都有一个侧输出，是金标准(ground truth，GT)进行监督。为了实现深度监督，每个解码器阶段的最后一层被送入一个普通的3×3卷积层，然后是一个双线性上采样和一个sigmoid函数。(这里的上采样是为了放大到全分辨率)
- Classification-guided Module (CGM)
在大多数医学图像分割中，非器官图像出现假阳性是不可避免的。它很有可能是由于来自背景的噪声信息停留在较浅的层次，导致过度分割的现象。为了实现更精确的分割，我们尝试通过增加一个额外的分类任务来解决这个问题，这个任务是为预测输入图像是否有器官而设计的。

利用最丰富的语义信息，分类结果可以进一步指导每一个切分侧边输出两个步骤。首先，在argmax函数的帮助下，将二维张量转化为{0,1}的单个输出，表示有/没有器官。随后，我们将单个分类输出与侧分割输出相乘。由于二值分类任务的简单性，该模块通过优化二值交叉熵损失函数，轻松获得准确的分类结果，实现了对非器官图像过分割的指导。