U-Net：图像分割的革命

U-Net：图像分割的革命#

还记得卷积神经网络中的 CNN 分类吗？输入一张图，输出一个标签——“这是一只猫”。但现实中很多任务需要的不只是"这是什么"，而是 “这些像素属于什么”：哪里是肿瘤、哪里是道路、哪里是细胞核。

分类问题是"看整体"，分割问题是"看每个点"。这看似只是"输出变多了"（从 1 个标签到几十万个标签），但实际上是一个本质不同的问题——你既要知道一个大象的整体形状（高层的语义理解），又要精确到象鼻子尖端的每个像素（低层的空间精度）。

CNN 的编码器擅长前者（下采样→语义），但牺牲了后者。U-Net 的答案很巧妙：去做一个对称的解码器，再用"抄近道"（跳跃连接）把丢失的空间信息直接传送回来。

学习目标

完成本章后，你将能够：

本章是从"分类"到"分割"的范式跃迁：

核心认知：分割不是"输出更多的分类"，而是需要同时解决"是什么"和"在哪"两个互补问题。

卷积神经网络中我们学会了 CNN 如何用卷积、池化、全连接做分类。但 CNN 的编码器通过下采样获取语义信息时，丢失了精确的空间位置信息。

U-Net 的解决方案：

学习路径：理解分割问题 → 掌握 U-Net 架构 → 动手实现 → 训练技巧

学习本章前，请确保你已经掌握

本章假设你已掌握以下内容：

还没掌握？

如果注意力机制（CNN 中的注意力机制）还没读过也不影响，但读过会更有感觉。

贡献者与修订历史

查看详细修订记录

bba351e 2026-04-29 - Heyan Zhu: docs: update chapter summaries and learning paths for consistency
b5e265a 2026-04-28 - Heyan Zhu: docs(unet): restructure documentation and update content
0c291d7 2025-12-10 - Heyan Zhu: docs: restructure course materials and add new content