神经网络基础:从理论到架构

神经网络基础:从理论到架构#

摘要#

还记得 计算图、反向传播与梯度下降:深度学习核心数学基础 中那些抽象的数学原理吗?

  • 计算图描述了数据如何流动和变换

  • 反向传播把误差从输出层反向传递到每一层

  • 梯度下降在损失曲面上寻找最优参数

  • 激活函数引入非线性,让网络能拟合复杂函数

但你可能还有一个疑问:这些理论怎么变成实际的网络架构?

本章就是答案。我们将从 MNIST 手写数字识别出发,深入理解两种核心架构——全连接网络卷积神经网络(CNN),让你真正从"知道原理"进化到"知道如何设计"。

学习目标

完成本章后,你将能够:

  1. 理解全连接网络与 CNN 的结构差异和设计思想

  2. 用 PyTorch 从零搭建神经网络,完成训练、评估全流程

  3. 通过实验直观感受 CNN 的归纳偏置(归纳偏置(Inductive Bias))优势

  4. 理解模型规模、数据量与性能的缩放定律(Scaling Law)

本章概览#

章节

内容

与前面章节的联系

引言

MNIST 案例与全连接/CNN 对比预览

为什么需要 CNN?

全连接神经网络

全连接层原理与 PyTorch 实现

计算图 的架构实现

卷积神经网络

卷积操作与参数共享机制

归纳偏置(Inductive Bias) 的具体体现

LeNet-5架构详解

LeNet-5 架构逐层解析

经典 CNN 设计模式

神经网络训练基础

完整训练流程与监控

反向传播算法 的实践应用

实验对比:全连接 vs CNN

全连接 vs CNN 实验对比

数据说话:参数量与准确率

缩放定律

模型缩放定律理论

梯度下降与优化算法 与效率优化

学习路径#

本章是前一章理论的架构延伸

graph LR A[数学基础<br/>理解原理] --> B[神经网络<br/>设计架构] B --> C[实验对比<br/>验证理论] C --> D[缩放定律<br/>洞察规律]

核心认知:神经网络架构不是凭空设计,而是数学原理的结构表达——每一层都有对应的计算图和梯度流动。

本章定位#

前一章我们学习了深度学习的数学原理

  • 计算图如何描述计算过程

  • 激活函数如何引入非线性

  • 反向传播如何高效计算梯度

  • 梯度下降如何优化参数

本章我们进入架构设计阶段

  • 用 PyTorch 实现这些机制

  • 理解不同架构的设计思想

  • 通过实验验证理论

  • 掌握训练调试技巧

学习路径:理论 → 实现 → 实验 → 洞察

前置要求#

学习本章前,请确保你已经掌握

  1. 数学基础计算图、反向传播与梯度下降:深度学习核心数学基础 中的计算图、反向传播、梯度下降

  2. Python 基础:熟悉 NumPy 数组操作

还没掌握?

如果前一章的内容已经有些模糊,建议先快速回顾:

目录#

贡献者与修订历史

查看详细修订记录
  • bba351e 2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency
  • 59126f4 2026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations
  • cec393d 2025-12-11 - Heyan Zhu: docs: partially complete migration and restructure course materials
  • 0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content