总结与展望#

恭喜!你已经完成了 CNN 注意力机制章节的全部内容。

为什么CNN需要注意力机制? 的问题驱动(CNN 平等对待所有特征的局限),到 通道注意力:SE-Net 的通道注意力机制,空间注意力 的空间注意力,通道+空间注意力:CBAM 的通道与空间注意力组合,注意力机制的选择与应用 的对比分析,直至 实践指南 的实践指南——你已经掌握了现代 CNN 中最重要的改进技术之一。

核心概念映射#

概念

直觉理解

数学形式

代码关键

Squeeze

压缩每个通道为"工作总结"

\(z = \frac{1}{HW}\sum\sum x\)

AdaptiveAvgPool2d(1)

Excitation

学习通道间依赖关系

\(s = \sigma(W_2\delta(W_1z))\)

Linear ReLU Linear Sigmoid

Scale

按重要性加权特征

\(\tilde{x} = s \cdot x\)

x * scale

空间注意力

生成位置重要性图

\(M_s = \sigma(f^{7\times7}([池化]))\)

Conv2d Sigmoid

CBAM

先选频道再看位置

\(F' = M_c(F) \cdot F,\; F'' = M_s(F') \cdot F'\)

通道+空间串联

与前面章节的联系#

本章是 神经网络基础:从理论到架构CNN 消融研究:理解卷积神经网络各组件的作用自然延伸

前置知识

本章应用

卷积神经网络 的卷积特征提取

通道/空间特征重要性差异分析

归纳偏置(Inductive Bias) 的归纳偏置

动态权重作为新的先验知识

感受野 的感受野

空间注意力让感受野"动起来"

实验设计 的消融实验

各组件贡献差异→需要动态加权

核心认知:注意力机制不是替换 CNN,而是在其之上叠加一层"可学习的放大镜"——让网络学会关注重要特征、抑制无关特征。

关键数字速查#

性能对比#

模块

参数量增加

训练速度影响

典型提升

SE-Net(\(r=16\)

+2.53M

-1%

+1.5%

CBAM

+2.55M

-2%

+2.3%

空间注意力

+49

-1%

+1.1%

感受野特性对比#

方法

感受野特性

计算复杂度

标准 CNN

固定,随深度线性增长

\(O(k^2 \cdot C \cdot H \cdot W)\)

通道注意力(SE)

不变(作用于通道)

\(O(C^2/r)\)

空间注意力(CBAM)

输入依赖,动态调整

\(O(k^2 \cdot H \cdot W)\)

自注意力(Non-local)

全局,一步到位

\(O(C \cdot H^2 \cdot W^2)\)

延伸:自注意力与多头注意力#

SE-Net 和 CBAM 是 CNN 中专用的注意力形式。更通用的**自注意力(Self-Attention)多头注意力(Multi-Head Attention)**是 Transformer 架构的核心:

  • 自注意力:让序列中每个位置都能关注所有其他位置

  • 多头注意力:同时从多个角度计算注意力

关键洞察:注意力机制的发展是不断放松 CNN 刚性假设的过程——从"所有位置同等重要"(标准 CNN),到"动态调整重要性"(CBAM),再到"所有位置直接通信"(自注意力)。

下一步学习方向#

掌握了 CNN 注意力机制后,你可以探索:

  1. U-Net:图像分割的革命:Attention U-Net 如何将注意力引入分割任务

  2. Transformer 与 ViT:自注意力如何彻底替代卷积

  3. 大语言模型:GPT、BERT 的核心就是多头自注意力

  4. 多模态注意力:CLIP 等模型的图像-文本交叉注意力

  5. 高效注意力:稀疏注意力、线性注意力降低 \(O(n^2)\) 复杂度

推荐资源#

必读论文#

  • Hu et al., “Squeeze-and-Excitation Networks”, CVPR 2018 — SE-Net 原始论文

  • Woo et al., “CBAM: Convolutional Block Attention Module”, ECCV 2018

  • Oktay et al., “Attention U-Net”, MIDL 2018 — 注意力在分割中的应用

拓展阅读#

  • Vaswani et al., “Attention Is All You Need”, NeurIPS 2017 — Transformer 原始论文

  • Wang et al., “Non-local Neural Networks”, CVPR 2018 — 自注意力在 CV 中的应用

  • Dosovitskiy et al., “An Image is Worth 16x16 Words”, ICLR 2021 — ViT

代码实现#

本章代码目录包含:

  • se_module.py — SE-Net 实现

  • cbam.py — CBAM 实现

  • self_attention.py — 自注意力模块

  • multi_head_attention.py — 多头注意力实现


最后的话#

注意力机制的精髓:

不是所有信息都同等重要——学会关注该关注的,忽略该忽略的。

这不仅是深度学习的设计原则,也是高效学习的通用智慧。


参考文献#

本章完。

贡献者与修订历史

查看详细修订记录
  • 0cdb1e4 2026-04-29 - Heyan Zhu: feat: add model-serving chapter and update related content
  • 2231276 2026-04-28 - Heyan Zhu: feat(attention-mechanisms): restructure and enhance attention mechanisms documentation
  • 0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content