结语:站在巨人的肩膀上#

恭喜!你已经完成了迁移学习章节的学习。

导论与核心思想 中的数据困境与计算成本,到 迁移学习分类体系 中的分类体系,再到 基于模型的迁移 中的特征提取与微调策略,最后到 实操指南 中的实操技巧——你已经掌握了利用预训练模型解决实际问题的完整方法论


本章学习路径回顾#

graph LR A[数据稀缺困境] --> B[迁移学习定义] B --> C[分类体系<br/>归纳/直推/无监督] C --> D[基于模型的迁移] D --> E[特征提取策略] D --> F[微调策略] E --> G[实操技巧<br/>相似性判断/学习率] F --> G


核心知识点总结#

迁移学习核心概念映射#

概念

直观理解

应用场景

源域 (Source Domain)

预训练模型的"学习背景"

ImageNet、大规模语料

目标域 (Target Domain)

你的实际任务

医学影像、小众语言

特征提取

“冻结经验,只学分类”

数据极少、域相似

微调

“在经验基础上继续学习”

数据充足、域有差异

灾难性遗忘

“学新忘旧”

学习率过大时

负迁移

“帮倒忙”

源域与目标域无关

决策流程速查#

graph TD A[开始迁移学习项目] --> B{目标数据量?} B -->|极少<br/><100张| C[特征提取] B -->|少量<br/>100-1000| D{域相似?} B -->|充足<br/>>1000| E[微调] D -->|相似| C D -->|不相似| F[分层微调<br/>浅层小lr深层大lr] C --> G[监控验证集性能] E --> G F --> G G --> H{过拟合?} H -->|是| I[数据增强/早停/Dropout] H -->|否| J[继续训练]


与前面章节的联系#

迁移学习是 PyTorch 实践:把理论变成代码 中技能的高级应用

前置知识

本章应用

神经网络模块:搭建计算图

加载预训练模型、替换分类头

优化器:用梯度更新参数

分层学习率、冻结参数

完整训练流程

完整训练流程、早停机制

正则化:防止死记硬背的四种方法

防止微调过拟合

归纳偏置(Inductive Bias)

预训练权重编码了通用先验

核心认知:迁移学习不是新技术,而是前面所有知识的综合运用——你仍然在使用相同的 PyTorch API,只是站在了巨人的肩膀上。


关键数字记忆#

场景

建议学习率

预期效果

特征提取

1e-3

快速收敛,不易过拟合

全量微调

1e-4 ~ 1e-5

需要更多epoch,但效果更好

分层微调

浅层1e-5,深层1e-4

平衡稳定性与适应性


推荐学习资源#

动手项目(从简单到复杂)#

项目名称

难度

练习重点

参考章节

猫狗分类器(迁移版)

⭐ 入门

用 ResNet50 做特征提取

基于模型的迁移

CIFAR-10 微调

⭐⭐ 基础

全量微调与数据增强

实操指南

医学影像分类

⭐⭐⭐ 进阶

分层微调、处理类别不平衡

完整流程

多语言情感分析

⭐⭐⭐ 进阶

BERT 微调、处理文本数据

NLP迁移

必读论文#

按阅读顺序排列:

  1. How transferable are features in deep neural networks? (Yosinski et al., 2014) - 特征可迁移性的经典分析

  2. ImageNet Classification with Deep Convolutional Neural Networks (AlexNet, 2012) - 预训练范式的开端

  3. BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) - 预训练+微调范式的里程碑

  4. LoRA: Low-Rank Adaptation of Large Language Models (Hu et al., 2021) - 参数高效微调的代表作

预训练模型资源#

  • PyTorch Hub: torchvision.modelstransformers

  • Hugging Face: 最大的预训练模型社区

  • timm: PyTorch Image Models,计算机视觉模型的宝库


下一步#

掌握了迁移学习后,你已经可以处理大多数实际的深度学习项目。接下来可以考虑:

  • 更深入的架构学习:ResNet、EfficientNet、Vision Transformer 的内部机制

  • 生成模型:GAN、VAE、Diffusion Models

  • 大语言模型应用:Prompt Engineering、RAG、Agent

  • 部署与工程:模型量化、TensorRT、ONNX


总结#

迁移学习的精髓可以用一句话概括:

不要重复造轮子——善用他人的知识,专注于你的创新。

从"会训练模型"进化到"会用模型解决问题",你已经迈出了关键的一步。

贡献者与修订历史

查看详细修订记录
  • b5be2d6 2026-04-28 - Heyan Zhu: docs: update documentation and improve content organization