SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images

Zhishe Wang, Yanlin Chen, Wenyu Shao, Hui Li, Lei Zhang

Links

PDF Attachments: 2022’SwinFuse_Wang et al.pdf

Zotero Links: Local library

My Comments and Inspiration

本文是第一个纯 Transformer 的架构用于近红外和可见光图像融合的工作，但是融合部分设计的动机不清晰，没有太大的参考价值。不知道为什么使用 1 范数

动机：卷积捕捉不到全集信息，作者认为只使用卷积进行融合，由于卷积的局部性，导致它们是 content-independent 的，融合时并不高效

|900

有点类似双流

每个模态首先经过一个 1x1 的卷积层来实施 positional encoding，此时输出的通道数为 96 (就是过一层 1x1 的卷积而已，只不过作者说“the convolution layer is an effective way for positional encoding, and transform an image space into a high-dimensional feature space”)
将特征图 flatten 之后送入若干个 residual Swin Transformer blocks (RSTBs) 中提取全局特征。这里可以直接看上图，就是直接应用了 SwinTrans 中的 Block，但是值得注意的是，它的 Residualy 有点多，STL 中有，RST 中也有，可以认为是内部和外部各有自己的 Residual，它是在 Attention 的过程中添加的 pos embed (下图 $p$ ).
基于 L1-Norm 进行行、列向量的融合。
Reshape 回空间特征图后，经过一个卷积层进行融合即可（也可能是几个卷积层，不重要） 如何融合