CBAM: Convolutional Block Attention Module

Sanghyun Woo, Jongchan Park, Joon-Young Lee, In So Kweon

本文作者同时考虑空间注意力和通道注意力，提出了 CBAM 模块。每个注意力模块都通过 Average pooling 和 Max pooling 挖掘互补的特征 (Average pooling 提取全局统计特征，Max pooling 提取显著性特征)。该模块通过串联两种注意力机制，得到refined feature map（更好的对特征进行注意力增强）

Links

PDF Attachments: Woo 等。 - 2018 - CBAM Convolutional Block Attention Module.pdf

Zotero Links: Local library

My Comments and Inspiration

Attention not only tells where to focus, it also improves the representation of interests

The channel attention focuses on “what” is important

The spatial attention focuses on “where” is an important part.

Cores, Contributions and Conclusions

Preface

为了增强 CNN 的表达能力，目前非常多的工作关注三个重要的方面：depth，width 和 cardinality。而最近，一个新的方面 attention 也吸引了很多的关注。本文即关注在此。

作者希望能够通过注意力机制来使得网络关注(focus)在那些重要的特征上，并且抑制(supppress)一些无关的特征。考虑道卷积这个操作就是从空间和通道上对特征一起进行聚合的，所以本文也就从这两个方面着手进行注意力相关的工作。

Methods

一句话总结：每个特征图依次通过通道注意力模块和空间注意力模块。

给定中间的特征图 $F \in R^{C \times H \times W}$
经过 channel attention module 得到 attention refined feature map $F^{'}$ $F^{'} = M_{c} (F) \otimes F$
$F^{'}$ 经过 spatial attention module 得到 refined feature map $F^{''}$ , $F^{''}$ 即为CBAM的输出，是refined feature map $F^{'''} = M_{s} (F^{'}) \otimes F^{'}$

注意是直接以 $F^{'}$ 为基础做的空间注意力增强，没有原始输入 $F$ 什么事

Channel attention module

对每个通道的特征图分别做 Max pooling 和 average pooling 得到两个 $C \times 1$ 的向量
分别依次经过两个 FC (设置和 SENet 里对应部分一模一样)，此时依然是两个 $C \times 1$ 的向量
两个向量对应位置相加后经过 Sigmoid (先相加在过 Sigmoid)
做通道注意力增强 (同 SENet 对应部分)

下为前三步的数学表示，第一个FC之后(即 $W_{0}$ )后跟着ReLU，第二个后没有激活函数

为什么使用两个 pooling?

Max pooling 能够在某种程度上挖掘特征中的显著性特征，而 average pooling encode global statistics softly，两个能够互补（作者原话）

We argue that max-pooled features which encode the degree of the most salient part can compensate the average-pooled features which encode global statistics softly.

消融实验证明两个一起用就是比单独用这两个结果好

Spatial attention module

沿着通道维度分别做 Max pooling 和 average pooling，得到两个 $1 \times H \times W$ 的特征图，将它们拼接起来得到 $2 \times H \times W$
经过 $7 \times 7$ 的卷积，保持尺寸不变，通道数变为 1
经过 Sigmoid 得到 spatial attention map
做空间注意力增强

前3步的数学化表示

为什么使用串联而非并联？

实验证明串联结果更好

实验证明串联的前提下通道在前空间在后结果更好

插入到现有网络中

跟SENet插入的位置一样，但是本文没有进一步探究插入位置对结果的影响

Experiments

Channel attention 中，使用两个 pooling 效果比仅使用其中任何一个结果都好

Saptial attention 中得到 $1 \times H \times W$ 的操作，avg&map+大的卷积核效果好 ( $7 \times 7$ )，作者认为对于空间注意力，需要使用大尺寸的卷积核进行感知

作者实验了两大类，一类是直接卷积+卷积做，但是是 $1 \times 1$ ，另一类是基于两种 pooing+卷积的，并且最后一个卷积设置了不同的卷积核尺寸

“It implies that a broad view (i.e. large receptive field) is needed for deciding spatially important regions” (Woo 等。, 2018, p. 9)

channel 和 spatial attenon 的顺序和架构实验，表明 c+s 串联结构最好

除此之外，作者还进行了Grad-CAM的注意力关注可视化实验；也将注意力图给人们去看，让人们去挑说哪个网络关注重点关注的更准；在IamgeNet-1K上的图像分类，MS COCO Object Detection，VOC 2007 Object Detection的实验

Some Descriptions

“We further push the performance by exploiting the spatial attention.”

My Obsidian Blog

探索

CBAM-Convolutional Block Attention Module

CBAM: Convolutional Block Attention Module

My Comments and Inspiration

Cores, Contributions and Conclusions

Preface

Methods

Channel attention module

Spatial attention module

插入到现有网络中

Experiments

Some Descriptions

关系图谱

目录