神经网络基础:从理论到架构#
摘要#
还记得 计算图、反向传播与梯度下降:深度学习核心数学基础 中那些抽象的数学原理吗?
计算图描述了数据如何流动和变换
反向传播把误差从输出层反向传递到每一层
梯度下降在损失曲面上寻找最优参数
激活函数引入非线性,让网络能拟合复杂函数
但你可能还有一个疑问:这些理论怎么变成实际的网络架构?
本章就是答案。我们将从 MNIST 手写数字识别出发,深入理解两种核心架构——全连接网络和卷积神经网络(CNN),让你真正从"知道原理"进化到"知道如何设计"。
学习目标
完成本章后,你将能够:
理解全连接网络与 CNN 的结构差异和设计思想
用 PyTorch 从零搭建神经网络,完成训练、评估全流程
通过实验直观感受 CNN 的归纳偏置(归纳偏置(Inductive Bias))优势
理解模型规模、数据量与性能的缩放定律(Scaling Law)
本章概览#
章节 |
内容 |
与前面章节的联系 |
|---|---|---|
MNIST 案例与全连接/CNN 对比预览 |
为什么需要 CNN? |
|
全连接层原理与 PyTorch 实现 |
计算图 的架构实现 |
|
卷积操作与参数共享机制 |
归纳偏置(Inductive Bias) 的具体体现 |
|
LeNet-5 架构逐层解析 |
经典 CNN 设计模式 |
|
完整训练流程与监控 |
反向传播算法 的实践应用 |
|
全连接 vs CNN 实验对比 |
数据说话:参数量与准确率 |
|
模型缩放定律理论 |
梯度下降与优化算法 与效率优化 |
学习路径#
本章是前一章理论的架构延伸:
核心认知:神经网络架构不是凭空设计,而是数学原理的结构表达——每一层都有对应的计算图和梯度流动。
本章定位#
前一章我们学习了深度学习的数学原理:
计算图如何描述计算过程
激活函数如何引入非线性
反向传播如何高效计算梯度
梯度下降如何优化参数
本章我们进入架构设计阶段:
用 PyTorch 实现这些机制
理解不同架构的设计思想
通过实验验证理论
掌握训练调试技巧
学习路径:理论 → 实现 → 实验 → 洞察
前置要求#
学习本章前,请确保你已经掌握
数学基础:计算图、反向传播与梯度下降:深度学习核心数学基础 中的计算图、反向传播、梯度下降
Python 基础:熟悉 NumPy 数组操作
目录#
贡献者与修订历史
查看详细修订记录
-
bba351e2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency -
59126f42026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations -
cec393d2025-12-11 - Heyan Zhu: docs: partially complete migration and restructure course materials -
0c291d72025-12-10 - Heyan Zhu: docs: restructure course materials and add new content