CNN 中的注意力机制

CNN 中的注意力机制#

还记得实验设计中的消融实验吗？我们发现不同通道和空间位置的特征重要性差异很大。但 CNN 有一个根本局限：它对所有输入特征一视同仁。

卷积核滑过图像时，无论当前区域是背景还是关键目标，都使用相同的权重计算。这就像阅读时每个字都用同样的精力，不分重点——显然效率低下。

本章要回答的核心问题是：如何让网络动态地知道"哪些特征更重要"？

卷积神经网络中讨论的归纳偏置（Inductive Bias）告诉我们，好的架构设计能把先验知识内置到网络中。注意力机制正是这种思想的延续——通过增加"动态权重"组件，让网络学会关注重要特征、抑制无关特征。它不替换现有的卷积或池化，而是在它们之上叠加一层"可学习的放大镜"。

学习目标

完成本章后，你将能够：

本章是在 CNN 基础上的能力增强：

核心认知：注意力不是替代 CNN，而是让 CNN "学会看重点"的可学习组件。

前面章节我们学习了 CNN 的工作原理和各组件的贡献——卷积核提取特征、池化降维、激活函数引入非线性、批归一化加速训练。但所有这些组件都有一个共同点：它们对所有输入特征一视同仁。

注意力机制的解决方案：

学习路径：理解局限 → 掌握机制 → 动手实现 → 学会选择

学习本章前，请确保你已经掌握

本章假设你已掌握以下内容：

还没掌握？

建议先完成 CNN 消融研究：理解卷积神经网络各组件的作用的学习，理解为什么不同特征的重要性会有差异。

贡献者与修订历史

查看详细修订记录

bba351e 2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency
2231276 2026-04-28 - Heyan Zhu: feat(attention-mechanisms): restructure and enhance attention mechanisms documentation
0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content