计算图、反向传播与梯度下降:深度学习核心数学基础#
摘要#
深度学习的核心问题是什么?让机器从数据中学习规律。
但如何做到呢?本章将揭示答案背后的数学机制:
计算图——将复杂计算可视化为数据流图,让数学变得直观
激活函数——引入非线性,让网络能够拟合任意复杂函数
损失函数——定义"什么是好的预测",量化模型与目标的差距
反向传播——高效计算梯度的链式法则,让误差能够反向传递
梯度下降——沿着梯度方向优化参数,找到损失曲面的最低点
我们将用 MNIST 手写数字识别作为贯穿例子,从概念到代码,一步步拆解这些技术如何让神经网络"学会"知识。
学习目标
完成本章后,你将能够:
理解计算图:将复杂数学计算可视化为数据流图
掌握激活函数:解释非线性变换如何划分决策边界
应用损失函数:选择合适的指标衡量模型预测质量
解释反向传播:理解误差如何在网络中反向传递并分配责任
运用梯度下降:利用梯度信息优化模型参数
本章概览#
学习路径#
本章是整个系列的理论基础层:
核心认知:我们不涉及复杂的网络架构,而是聚焦于让神经网络"工作"起来的核心数学机制——每个概念都有对应的代码实现。
本章定位#
本章聚焦于让神经网络"工作"起来的五大核心机制:
计算图 → 描述"计算如何进行"
激活函数 → 解决"如何表达复杂模式"
损失函数 → 定义"什么是好的预测"
反向传播 → 实现"如何高效求导"
梯度下降 → 回答"如何找到最优解"
学习路径:建立直觉 → 理解原理 → 动手实践 → 为后续章节铺垫
前置要求#
学习本章前,请确保你已经掌握
本章是深度学习系列的理论基础,不需要深度学习前置知识,但需要:
基础 Python 编程:熟悉基本语法和函数
高中数学基础:函数、导数概念
NumPy 入门:建议了解基本数组操作
环境准备
如果你还没有配置 Python 环境,可以参考 环境配置番外篇 中的安装指南。
与后续章节的联系#
本章为整个系列奠定基础:
本章概念 |
后续章节应用 |
|---|---|
全连接神经网络 中的网络架构 |
|
神经网络训练基础 中的训练流程 |
|
优化器:用梯度更新参数 中的优化器 |
|
卷积神经网络 中的卷积网络 |
下一章 神经网络基础:从理论到架构 将基于这些理论,用 PyTorch 搭建和训练实际的神经网络。
目录#
贡献者与修订历史
查看详细修订记录
-
bba351e2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency -
0cdb1e42026-04-29 - Heyan Zhu: feat: add model-serving chapter and update related content -
59126f42026-04-26 - Heyan Zhu: docs(math-fundamentals): update content structure and add citations -
ae2053f2026-04-26 - Heyan Zhu: docs(math-fundamentals): add task-formulations and update related content -
756a7932026-04-25 - Heyan Zhu: docs(math-fundamentals): update content structure and improve explanations -
0c291d72025-12-10 - Heyan Zhu: docs: restructure course materials and add new content