总结与展望#
恭喜!你已经完成了 CNN 注意力机制章节的全部内容。
从 为什么CNN需要注意力机制? 的问题驱动(CNN 平等对待所有特征的局限),到 通道注意力:SE-Net 的通道注意力机制,空间注意力 的空间注意力,通道+空间注意力:CBAM 的通道与空间注意力组合,注意力机制的选择与应用 的对比分析,直至 实践指南 的实践指南——你已经掌握了现代 CNN 中最重要的改进技术之一。
核心概念映射#
概念 |
直觉理解 |
数学形式 |
代码关键 |
|---|---|---|---|
Squeeze |
压缩每个通道为"工作总结" |
\(z = \frac{1}{HW}\sum\sum x\) |
|
Excitation |
学习通道间依赖关系 |
\(s = \sigma(W_2\delta(W_1z))\) |
|
Scale |
按重要性加权特征 |
\(\tilde{x} = s \cdot x\) |
|
空间注意力 |
生成位置重要性图 |
\(M_s = \sigma(f^{7\times7}([池化]))\) |
|
CBAM |
先选频道再看位置 |
\(F' = M_c(F) \cdot F,\; F'' = M_s(F') \cdot F'\) |
通道+空间串联 |
与前面章节的联系#
本章是 神经网络基础:从理论到架构 和 CNN 消融研究:理解卷积神经网络各组件的作用 的自然延伸:
前置知识 |
本章应用 |
|---|---|
卷积神经网络 的卷积特征提取 |
通道/空间特征重要性差异分析 |
归纳偏置(Inductive Bias) 的归纳偏置 |
动态权重作为新的先验知识 |
感受野 的感受野 |
空间注意力让感受野"动起来" |
实验设计 的消融实验 |
各组件贡献差异→需要动态加权 |
核心认知:注意力机制不是替换 CNN,而是在其之上叠加一层"可学习的放大镜"——让网络学会关注重要特征、抑制无关特征。
关键数字速查#
性能对比#
模块 |
参数量增加 |
训练速度影响 |
典型提升 |
|---|---|---|---|
SE-Net(\(r=16\)) |
+2.53M |
-1% |
+1.5% |
CBAM |
+2.55M |
-2% |
+2.3% |
空间注意力 |
+49 |
-1% |
+1.1% |
感受野特性对比#
方法 |
感受野特性 |
计算复杂度 |
|---|---|---|
标准 CNN |
固定,随深度线性增长 |
\(O(k^2 \cdot C \cdot H \cdot W)\) |
通道注意力(SE) |
不变(作用于通道) |
\(O(C^2/r)\) |
空间注意力(CBAM) |
输入依赖,动态调整 |
\(O(k^2 \cdot H \cdot W)\) |
自注意力(Non-local) |
全局,一步到位 |
\(O(C \cdot H^2 \cdot W^2)\) |
延伸:自注意力与多头注意力#
SE-Net 和 CBAM 是 CNN 中专用的注意力形式。更通用的**自注意力(Self-Attention)和多头注意力(Multi-Head Attention)**是 Transformer 架构的核心:
自注意力:让序列中每个位置都能关注所有其他位置
多头注意力:同时从多个角度计算注意力
关键洞察:注意力机制的发展是不断放松 CNN 刚性假设的过程——从"所有位置同等重要"(标准 CNN),到"动态调整重要性"(CBAM),再到"所有位置直接通信"(自注意力)。
下一步学习方向#
掌握了 CNN 注意力机制后,你可以探索:
U-Net:图像分割的革命:Attention U-Net 如何将注意力引入分割任务
Transformer 与 ViT:自注意力如何彻底替代卷积
大语言模型:GPT、BERT 的核心就是多头自注意力
多模态注意力:CLIP 等模型的图像-文本交叉注意力
高效注意力:稀疏注意力、线性注意力降低 \(O(n^2)\) 复杂度
推荐资源#
必读论文#
Hu et al., “Squeeze-and-Excitation Networks”, CVPR 2018 — SE-Net 原始论文
Woo et al., “CBAM: Convolutional Block Attention Module”, ECCV 2018
Oktay et al., “Attention U-Net”, MIDL 2018 — 注意力在分割中的应用
拓展阅读#
Vaswani et al., “Attention Is All You Need”, NeurIPS 2017 — Transformer 原始论文
Wang et al., “Non-local Neural Networks”, CVPR 2018 — 自注意力在 CV 中的应用
Dosovitskiy et al., “An Image is Worth 16x16 Words”, ICLR 2021 — ViT
代码实现#
本章代码目录包含:
se_module.py— SE-Net 实现cbam.py— CBAM 实现self_attention.py— 自注意力模块multi_head_attention.py— 多头注意力实现
最后的话#
注意力机制的精髓:
不是所有信息都同等重要——学会关注该关注的,忽略该忽略的。
这不仅是深度学习的设计原则,也是高效学习的通用智慧。
参考文献#
本章完。
贡献者与修订历史
查看详细修订记录
-
0cdb1e42026-04-29 - Heyan Zhu: feat: add model-serving chapter and update related content -
22312762026-04-28 - Heyan Zhu: feat(attention-mechanisms): restructure and enhance attention mechanisms documentation -
0c291d72025-12-10 - Heyan Zhu: docs: restructure course materials and add new content