引言#

学习目标与核心概念#

在深入探讨计算图、反向传播和梯度下降之前,我们先明确本章的学习目标:

学习目标

  • 计算图直觉:把数学运算看作"数据流动"的管道系统

  • 激活函数直觉:理解非线性如何将线性不可分的数据"折叠"成可分

  • 损失函数直觉:理解不同目标如何塑造优化问题的几何结构

  • 反向传播直觉:把最终误差"分摊"给每个参数(信用分配机制)

  • 梯度下降直觉:理解损失曲面的几何形状如何影响优化路径

  • 代码连接:在PyTorch中观察这些机制的实际表现

机器学习的基本问题#

机器学习的目标是让计算机从数据中自己发现规律,而不是我们一条条写规则。核心挑战是如何自动调整模型参数,让它能更好地拟合数据、做出准确预测。

机器学习的核心挑战

  • 模型复杂度:现代深度学习模型可能有数百万甚至数十亿个参数

  • 优化难度:在如此高维的空间里找到最优解,就像在迷宫里找出口

  • 计算效率:需要又快又省的算法处理海量数据和复杂模型

  • 泛化能力:模型不仅要在训练数据上表现好,还要在没见过的新数据上靠谱

为什么需要这些核心机制?#

神经网络训练涉及几个关键环节,每个环节都需要特定的数学工具:

  1. 计算图:描述数据如何在网络中流动,为自动求导提供结构基础

  2. 激活函数:引入非线性,让网络能够划分复杂的决策边界

  3. 损失函数:定义"预测好坏"的度量,将训练转化为优化问题

  4. 反向传播算法:高效计算梯度,完成误差的"信用分配"

  5. 梯度下降与优化算法:利用梯度信息迭代优化参数

这些概念相互配合,构成了现代深度学习框架的核心机制 [GBC16]

本章预览#

本章我们将从计算图开始,建立"数据流"的直觉视角。然后理解激活函数如何用非线性变换在空间中划分决策边界。接着探讨损失函数如何定义优化目标、塑造损失曲面的几何形状。之后理解反向传播算法如何高效地完成"信用分配"——把最终误差分摊给每个参数。最后探索梯度下降与优化算法如何在损失曲面上寻找最优解。

掌握这些核心机制后,总结与展望将回顾本章要点,然后下一章我们将用PyTorch构建实际的神经网络,在MNIST任务上观察这些理论如何转化为训练动态。


参考文献#

[GBC16]

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. MIT Press, 2016.

贡献者与修订历史

查看详细修订记录
  • 59126f4 2026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations
  • 756a793 2026-04-25 - Heyan Zhu: docs(math-fundamentals): update content structure and improve explanations
  • 0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content