常用的注意力机制模型

常用的注意力机制多为SE Attention和CBAM Attention。它们基本都可以当成一个简单的网络。例如SE注意力机制，它主要就是由两个全连接层组成，这就是一个简单的MLP模型，只是它的输出变了样。所以，在我们把注意力机制加入主干网络里时，所选注意力机制的复杂程度也是我们要考虑的一个方面，因为增加注意力机制，也变相的增加了我们网络的深度，大小。

SE Attention

详见这篇博文

经典网络模型-SENet注意力机制_L888666Q的博客-CSDN博客_senet网络模型

CBAM Attention

CBAM(Convolutional Block Attention Module) 表示卷积模块的注意力机制模块。是一种结合了空间（spatial）和通道（channel）的注意力机制模块。一般情况下，相比于SEnet只关注通道（channel）的注意力机制可以取得更好的效果。其中CBAM的结构如下面两张图，由Channel Attention和 Spatial Attention这两个模块组成，其中Channel Attention模块和SENet是十分相似的，只是在池化上做了最大和平均池化，把FC层换成了卷积。至于Spatial Attention模块，这个更为简单，本质上就是一个卷积层。论文地址

CBAM Attention 模型结构

CBAM Attention 代码实现（Pytorch版）：

import numpy as np
import torch
from torch import nn
from torch.nn import initclass ChannelAttention(nn.Module):def __init__(self,channel,reduction=16):super().__init__()self.maxpool=nn.AdaptiveMaxPool2d(1)self.avgpool=nn.AdaptiveAvgPool2d(1)self.se=nn.Sequential(nn.Conv2d(channel,channel//reduction,1,bias=False),nn.ReLU(),nn.Conv2d(channel//reduction,channel,1,bias=False))self.sigmoid=nn.Sigmoid()def forward(self, x) :max_result=self.maxpool(x)avg_result=self.avgpool(x)max_out=self.se(max_result)avg_out=self.se(avg_result)output=self.sigmoid(max_out+avg_out)return outputclass SpatialAttention(nn.Module):def __init__(self,kernel_size=7):super().__init__()self.conv=nn.Conv2d(2,1,kernel_size=kernel_size,padding=kernel_size//2)self.sigmoid=nn.Sigmoid()def forward(self, x) :max_result,_=torch.max(x,dim=1,keepdim=True)avg_result=torch.mean(x,dim=1,keepdim=True)result=torch.cat([max_result,avg_result],1)output=self.conv(result)output=self.sigmoid(output)return outputclass CBAMBlock(nn.Module):def __init__(self, channel=512,reduction=16,kernel_size=49):super().__init__()self.ca=ChannelAttention(channel=channel,reduction=reduction)self.sa=SpatialAttention(kernel_size=kernel_size)def forward(self, x):b, c, _, _ = x.size()residual=xout=x*self.ca(x)out=out*self.sa(out)return out+residual

注意力机制加到网络的哪里合适

注意力机制是一个独立的块，一般来说加在哪里都是可以的，但是，注意机制加入我们的网络中时，他是会影响我们网络的特征提取的，即它注意的特征不一定都是我们重要的特征。所以注意力机制加入我们网络的位置就比较重要了。当我我们使用一个注意力机制不知道加在哪里时可以去看看提出注意力机制作者的源代码。如CBAM注意力机制的源代码，加在了残差网络（以resnet18为例）的残差块后面。如果我们使用的网络不是注意力机制作者使用的网络，建议加在最后一个卷积层后面或者第一个全连接层前面。当然并不是每个注意力机制或者每个网络都适用，因为不同的注意力机制注意的地方可能都不一样，所以加到主干网络的地方可能也不一样。