空间注意力

空间注意力#

通道注意力：SE-Net 中，我们学习了通道注意力——让网络关注"什么特征重要"。但还有一个维度没覆盖：特征出现在哪里？一张猫的图片中，猫所在的空间位置比背景更重要。这就是空间注意力要解决的问题。

核心思想#

空间注意力（Spatial Attention）的目标是生成一个空间注意力图——一个与输入特征图同等宽高的二维权重图，每个位置的值表示该位置的重要性。

空间注意力的直觉

通道注意力是"给每个频道调音量"，空间注意力则是**“给屏幕的每个区域调亮度”**——重要的区域（如物体位置）更亮，不重要的区域（如背景）更暗。

数学形式#

输入特征图 \(F \in \mathbb{R}^{C \times H \times W}\)，空间注意力模块生成注意力图 \(M_s \in \mathbb{R}^{1 \times H \times W}\)：

\[\tilde{F} = F \odot M_s\]

其中 \(\odot\) 表示逐元素乘法（注意力图广播到所有通道）。

关键问题：如何从 \(C\) 个通道的特征图生成 \(1\) 个通道的空间注意力图？答案是沿通道维度聚合信息。

CBAM风格的空间注意力#

最常用的空间注意力方法来自 CBAM [WPLK18]，步骤如下：

通道池化：对每个空间位置，分别计算该位置在所有通道上的平均值和最大值，得到两个 \(1 \times H \times W\) 的聚合特征图。
拼接：把两个聚合图拼成 \(2 \times H \times W\)。
卷积：用一个 \(7 \times 7\) 卷积层将 \(2\) 个通道压缩回 \(1\) 个通道。
激活：Sigmoid 将值映射到 \((0,1)\)，得到空间注意力图。

\[M_s = \sigma(f^{7\times7}([\text{AvgPool}^c(F); \text{MaxPool}^c(F)]))\]

为什么同时用平均池化和最大池化？

平均池化捕获"该位置的整体激活强度"——相当于问"这个区域整体上多活跃？“。最大池化捕获"该位置的最强响应”——相当于问"这个区域最突出的特征是什么？"。两者互补，结合起来能更全面地描述每个空间位置的信息量。

CBAM风格的空间注意力实现#

import torch
import torch.nn as nn

class SpatialAttention(nn.Module):
    """
    CBAM 风格的空间注意力模块

    沿通道维度聚合信息, 生成空间注意力图 (1×H×W):
    1. 通道平均池化 + 通道最大池化 → 2×H×W
    2. 7×7 卷积压缩为 1×H×W
    3. Sigmoid 激活

    参数量: 2 * 7 * 7 = 98 (k=7 时)
    输入: (B, C, H, W)
    输出: (B, 1, H, W)  — 空间注意力图
    """
    def __init__(self, kernel_size=7):
        super(SpatialAttention, self).__init__()

        assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
        padding = 3 if kernel_size == 7 else 1

        # 输入 2 通道 (avg + max), 输出 1 通道 (注意力图)
        # 参数量: 2 * 1 * k * k = 2k²
        self.conv = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 沿通道维度 (dim=1) 聚合
        # avg_out: (B, 1, H, W), 每个位置的平均激活强度
        avg_out = torch.mean(x, dim=1, keepdim=True)
        # max_out: (B, 1, H, W), 每个位置的最强响应
        max_out, _ = torch.max(x, dim=1, keepdim=True)

        # 拼接: (B, 2, H, W)
        x = torch.cat([avg_out, max_out], dim=1)
        # 卷积压缩 + Sigmoid: (B, 1, H, W)
        x = self.conv(x)
        return self.sigmoid(x)

if __name__ == "__main__":
    x = torch.randn(2, 64, 32, 32)
    sa = SpatialAttention(kernel_size=7)
    y = sa(x)
    print(f"Input shape: {x.shape}")
    print(f"Attention shape: {y.shape}")
    print(f"SpatialAttention params: {sum(p.numel() for p in sa.parameters())}  (2*7²=98)")