引言#
学习目标与核心概念#
在深入探讨计算图、反向传播和梯度下降之前,我们先明确本章的学习目标:
学习目标
计算图直觉:把数学运算看作"数据流动"的管道系统
激活函数直觉:理解非线性如何将线性不可分的数据"折叠"成可分
损失函数直觉:理解不同目标如何塑造优化问题的几何结构
反向传播直觉:把最终误差"分摊"给每个参数(信用分配机制)
梯度下降直觉:理解损失曲面的几何形状如何影响优化路径
代码连接:在PyTorch中观察这些机制的实际表现
机器学习的基本问题#
机器学习的目标是让计算机从数据中自己发现规律,而不是我们一条条写规则。核心挑战是如何自动调整模型参数,让它能更好地拟合数据、做出准确预测。
机器学习的核心挑战
模型复杂度:现代深度学习模型可能有数百万甚至数十亿个参数
优化难度:在如此高维的空间里找到最优解,就像在迷宫里找出口
计算效率:需要又快又省的算法处理海量数据和复杂模型
泛化能力:模型不仅要在训练数据上表现好,还要在没见过的新数据上靠谱
为什么需要这些核心机制?#
神经网络训练涉及几个关键环节,每个环节都需要特定的数学工具:
计算图:描述数据如何在网络中流动,为自动求导提供结构基础
激活函数:引入非线性,让网络能够划分复杂的决策边界
损失函数:定义"预测好坏"的度量,将训练转化为优化问题
反向传播算法:高效计算梯度,完成误差的"信用分配"
梯度下降与优化算法:利用梯度信息迭代优化参数
这些概念相互配合,构成了现代深度学习框架的核心机制 [GBC16]。
本章预览#
本章我们将从计算图开始,建立"数据流"的直觉视角。然后理解激活函数如何用非线性变换在空间中划分决策边界。接着探讨损失函数如何定义优化目标、塑造损失曲面的几何形状。之后理解反向传播算法如何高效地完成"信用分配"——把最终误差分摊给每个参数。最后探索梯度下降与优化算法如何在损失曲面上寻找最优解。
掌握这些核心机制后,总结与展望将回顾本章要点,然后下一章我们将用PyTorch构建实际的神经网络,在MNIST任务上观察这些理论如何转化为训练动态。
参考文献#
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. MIT Press, 2016.
贡献者与修订历史
查看详细修订记录
-
59126f42026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations -
756a7932026-04-25 - Heyan Zhu: docs(math-fundamentals): update content structure and improve explanations -
0c291d72025-12-10 - Heyan Zhu: docs: restructure course materials and add new content