神经网络基础：从理论到架构

目录

神经网络基础：从理论到架构#

摘要#

还记得计算图、反向传播与梯度下降：深度学习核心数学基础中那些抽象的数学原理吗？

计算图描述了数据如何流动和变换
反向传播把误差从输出层反向传递到每一层
梯度下降在损失曲面上寻找最优参数
激活函数引入非线性，让网络能拟合复杂函数

但你可能还有一个疑问：这些理论怎么变成实际的网络架构？

本章就是答案。我们将从 MNIST 手写数字识别出发，深入理解两种核心架构——全连接网络和卷积神经网络（CNN），让你真正从"知道原理"进化到"知道如何设计"。

学习目标

完成本章后，你将能够：

理解全连接网络与 CNN 的结构差异和设计思想
用 PyTorch 从零搭建神经网络，完成训练、评估全流程
通过实验直观感受 CNN 的归纳偏置（归纳偏置（Inductive Bias））优势
理解模型规模、数据量与性能的缩放定律（Scaling Law）

本章概览#

章节	内容	与前面章节的联系
引言	MNIST 案例与全连接/CNN 对比预览	为什么需要 CNN？
全连接神经网络	全连接层原理与 PyTorch 实现	计算图的架构实现
卷积神经网络	卷积操作与参数共享机制	归纳偏置（Inductive Bias）的具体体现
LeNet-5架构详解	LeNet-5 架构逐层解析	经典 CNN 设计模式
神经网络训练基础	完整训练流程与监控	反向传播算法的实践应用
实验对比：全连接 vs CNN	全连接 vs CNN 实验对比	数据说话：参数量与准确率
缩放定律	模型缩放定律理论	梯度下降与优化算法与效率优化

学习路径#

本章是前一章理论的架构延伸：

核心认知：神经网络架构不是凭空设计，而是数学原理的结构表达——每一层都有对应的计算图和梯度流动。

本章定位#

前一章我们学习了深度学习的数学原理：

计算图如何描述计算过程
激活函数如何引入非线性
反向传播如何高效计算梯度
梯度下降如何优化参数

本章我们进入架构设计阶段：

用 PyTorch 实现这些机制
理解不同架构的设计思想
通过实验验证理论
掌握训练调试技巧

学习路径：理论 → 实现 → 实验 → 洞察

前置要求#

学习本章前，请确保你已经掌握

数学基础：计算图、反向传播与梯度下降：深度学习核心数学基础中的计算图、反向传播、梯度下降
Python 基础：熟悉 NumPy 数组操作

还没掌握？

如果前一章的内容已经有些模糊，建议先快速回顾：

计算图：数据流动的直觉
反向传播算法：梯度如何回传
梯度下降与优化算法：参数如何更新

目录#

贡献者与修订历史

查看详细修订记录

bba351e 2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency
59126f4 2026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations
cec393d 2025-12-11 - Heyan Zhu: docs: partially complete migration and restructure course materials
0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content