# 引言

## 学习目标与核心概念

在深入探讨计算图、反向传播和梯度下降之前，我们先明确本章的学习目标：

```{admonition} 学习目标
:class: note

- **计算图直觉**：把数学运算看作"数据流动"的管道系统
- **激活函数直觉**：理解非线性如何将线性不可分的数据"折叠"成可分
- **损失函数直觉**：理解不同目标如何塑造优化问题的几何结构
- **反向传播直觉**：把最终误差"分摊"给每个参数（信用分配机制）
- **梯度下降直觉**：理解损失曲面的几何形状如何影响优化路径
- **代码连接**：在PyTorch中观察这些机制的实际表现
```

## 机器学习的基本问题

机器学习的目标是让计算机从数据中自己发现规律，而不是我们一条条写规则。核心挑战是如何自动调整模型参数，让它能更好地拟合数据、做出准确预测。

```{admonition} 机器学习的核心挑战
:class: note

- **模型复杂度**：现代深度学习模型可能有数百万甚至数十亿个参数
- **优化难度**：在如此高维的空间里找到最优解，就像在迷宫里找出口
- **计算效率**：需要又快又省的算法处理海量数据和复杂模型
- **泛化能力**：模型不仅要在训练数据上表现好，还要在没见过的新数据上靠谱
```

## 为什么需要这些核心机制？

神经网络训练涉及几个关键环节，每个环节都需要特定的数学工具：

1. **{ref}`computational-graph`**：描述数据如何在网络中流动，为自动求导提供结构基础
2. **{ref}`activation-functions`**：引入非线性，让网络能够划分复杂的决策边界
3. **{ref}`loss-functions`**：定义"预测好坏"的度量，将训练转化为优化问题
4. **{ref}`back-propagation`**：高效计算梯度，完成误差的"信用分配"
5. **{ref}`gradient-descent`**：利用梯度信息迭代优化参数

这些概念相互配合，构成了现代深度学习框架的核心机制 {cite}`goodfellow2016deep`。

## 本章预览

本章我们将从{ref}`computational-graph`开始，建立"数据流"的直觉视角。然后理解{ref}`activation-functions`如何用非线性变换在空间中划分决策边界。接着探讨{ref}`loss-functions`如何定义优化目标、塑造损失曲面的几何形状。之后理解{ref}`back-propagation`如何高效地完成"信用分配"——把最终误差分摊给每个参数。最后探索{ref}`gradient-descent`如何在损失曲面上寻找最优解。

掌握这些核心机制后，{doc}`the-end`将回顾本章要点，然后下一章我们将用PyTorch构建实际的神经网络，在MNIST任务上观察这些理论如何转化为训练动态。

---

## 参考文献

```{bibliography}
:filter: docname in docnames
```