深度学习知识框架：从数学基础到实战代码的完整复习笔记

如果你在学深度学习时，总觉得概念很多、知识点很散，这篇文章可以当作一份总复习提纲。

我把常见内容按“数学基础 → 核心机制 → 模型类型 → 训练工程 → 应用方向 → 实战代码”的顺序重新整理，方便你在入门、复习和查漏补缺时对照查看。

为了更适合发布和阅读，我已经把原来过长的后半部分拆成了几篇独立专题。你可以先读这篇总纲，再按需要深入专题文章。

深度学习训练工程指南：学会看曲线、控过拟合和系统调参

GAN、VAE 与扩散模型入门：三种生成模型一次讲清楚

计算机视觉学习路线图：从图像分类到检测与分割

PyTorch 实战 CIFAR-10：手写 ResNet 并把准确率做到 94% 左右

1. 整体知识框架

深度学习的知识体系分为五层，从下往上依次递进：

第0层：数学基础
  └── 线性代数 · 微积分（求导） · 概率与统计

第1层：核心机制（最重要，必须理解透）
  └── 神经网络结构 · 损失函数 · 反向传播 · 梯度下降

第2层：基础模型类型（按任务选择）
  ├── CNN（图像 · 空间特征）
  ├── RNN / LSTM（序列 · 时间关系）
  └── Transformer（注意力 · 并行计算）

第3层：训练工程（让模型真正可用）
  ├── 优化器（Adam · SGD）
  ├── 正则化（Dropout · BatchNorm）
  ├── 数据处理（增强 · 归一化）
  └── 调参与诊断（学习曲线 · 超参）

第4层：应用方向（选一个深入）
  ├── 计算机视觉（CV · 检测 · 分割）
  ├── 自然语言处理（NLP · LLM · BERT）
  ├── 生成模型（GAN · VAE · Diffusion）
  └── 强化学习（DRL · 策略优化）

推荐学习顺序：

先看 3Blue1Brown 的神经网络视频（4集），建立直觉
动手跑 PyTorch 官方教程，把训练循环自己写一遍
读懂一篇经典论文（比如 LeNet 或 ResNet）
再回去看项目代码，会完全不同

2. 第0层：数学基础

不需要精通，够用即可：

数学方向	需要掌握的程度
线性代数	理解矩阵乘法和向量，神经网络本质就是矩阵运算
微积分	理解"导数 = 斜率 = 变化方向"，会链式求导法则
概率统计	理解均值、分布、概率的直觉含义

不需要提前学完再上路，遇到问题查一查就好。

3. 第1层：核心机制

这是最值得花时间理解透的一层，只有 4 个概念。

神经网络

本质：把输入数据经过很多层"线性变换 + 激活函数"，最终输出一个预测值。

每个神经元的运算：

输出 = f( w₁x₁ + w₂x₂ + w₃x₃ + b )

w = 权重（连线粗细，训练时学习的参数）
b = 偏置
f = 激活函数（比如 ReLU：负数归零，正数保留）

激活函数的唯一作用：引入非线性，让网络能学会弯曲的决策边界。

层越深，特征越抽象：

第一层学边缘
第二层学纹理
第三层学形状
最后一层学"这是猫还是狗"

损失函数

衡量"模型预测得有多错"的一个数字。数字越小说明预测越准。

损失函数	适用场景	公式
MSE（均方误差）	回归（预测连续数值，如房价）	`(预测值 - 真实值)²`
交叉熵	分类（预测类别）	衡量预测概率分布与真实分布的差异

把所有可能的权重组合想象成山地地形，损失函数的值是当前位置的海拔——训练目标是找最低谷。

反向传播

问题：网络有几百万个权重，怎么知道每个权重该往哪个方向调？

做的事：用链式法则，从损失出发，算出每一个权重对损失的贡献（偏导数 = 梯度）。

直觉：你考试得了低分，老师追责——是最后一题错了（层3的问题），还是因为某个基础概念没搞清楚（层1的问题）？反向传播就是这个追责过程，用数学精确地算出每个权重"该负多少责任"。

梯度下降

权重更新公式：

W_new = W_old − 学习率 × 梯度

梯度 = 损失增大的方向
减去它 = 朝损失减小的方向走一步
学习率控制步子大小（太大跨过最低点，太小收敛慢）

完整训练循环

① 前向传播（输入 → 预测值）
       ↓
② 计算损失（预测值 vs 真实值）
       ↓
③ 反向传播（计算各参数梯度）
       ↓
④ 更新参数（梯度下降一步）
       ↓
重复数千次 → 模型收敛

4. 第2层：基础模型类型

理解每种模型为什么被发明出来，比记架构细节重要得多：

模型	发明原因	适合数据	核心思想
CNN	图片的像素有空间关系，需要扫描局部图案	图像、空间数据	卷积核扫描边缘、纹理、形状等局部特征
RNN / LSTM	句子有时间顺序，后面的词依赖前面的词	序列、文本、时间序列	有"记忆"的结构，处理有顺序依赖的数据
Transformer	RNN 是串行的很慢，需要并行处理	文本、图像、多模态	Attention 让每个位置直接"看到"所有位置

5. 建议分篇阅读

为了避免一篇文章过长、阅读负担太重，我把原来的详细内容拆成了 4 篇独立专题。你可以先用这篇文章建立整体地图，再按兴趣继续往下读：

建议阅读顺序：

刚入门：先把这篇总纲读完，理解“数学基础 → 核心机制 → 模型类型 → 应用方向”的层次。
想提升训练效果：优先看训练工程那篇，解决“模型为什么训不好”。
想选方向深挖：根据兴趣去看生成模型或计算机视觉。
想真正动手：最后再跑 CIFAR-10 实战代码，把前面的概念串起来。

6. 速查表汇总

学习顺序速查

阶段	先掌握什么	目标
第1步	数学基础 + 神经网络直觉	知道模型到底在学什么
第2步	损失函数、反向传播、梯度下降	理解训练循环为什么能优化
第3步	CNN / RNN / Transformer 的差异	知道不同任务该用哪类模型
第4步	训练工程（学习率、正则化、增强）	让模型真正训起来、训稳定
第5步	选一个应用方向深挖	从“会看概念”进入“能做项目”

模型一句话总结

CNN：适合图像，擅长提取局部空间特征。
RNN / LSTM：适合序列数据，强调前后顺序关系。
Transformer：靠注意力机制建模全局关系，并行能力强。

应用方向一句话总结

计算机视觉（CV）：研究图像分类、检测、分割等任务。
自然语言处理（NLP）：研究文本理解、生成与对话系统。
生成模型：从噪声或隐变量中生成新内容。
强化学习：通过奖励机制学策略，强调“试错”和长期回报。

如果你把这篇总纲当成地图，把后续专题当成分路线图，学习深度学习时会轻松很多，也更不容易迷路。