如果你在学深度学习时,总觉得概念很多、知识点很散,这篇文章可以当作一份总复习提纲。
我把常见内容按“数学基础 → 核心机制 → 模型类型 → 训练工程 → 应用方向 → 实战代码”的顺序重新整理,方便你在入门、复习和查漏补缺时对照查看。
为了更适合发布和阅读,我已经把原来过长的后半部分拆成了几篇独立专题。你可以先读这篇总纲,再按需要深入专题文章。
目录
1. 整体知识框架
深度学习的知识体系分为五层,从下往上依次递进:
第0层:数学基础
└── 线性代数 · 微积分(求导) · 概率与统计
第1层:核心机制(最重要,必须理解透)
└── 神经网络结构 · 损失函数 · 反向传播 · 梯度下降
第2层:基础模型类型(按任务选择)
├── CNN(图像 · 空间特征)
├── RNN / LSTM(序列 · 时间关系)
└── Transformer(注意力 · 并行计算)
第3层:训练工程(让模型真正可用)
├── 优化器(Adam · SGD)
├── 正则化(Dropout · BatchNorm)
├── 数据处理(增强 · 归一化)
└── 调参与诊断(学习曲线 · 超参)
第4层:应用方向(选一个深入)
├── 计算机视觉(CV · 检测 · 分割)
├── 自然语言处理(NLP · LLM · BERT)
├── 生成模型(GAN · VAE · Diffusion)
└── 强化学习(DRL · 策略优化)
推荐学习顺序:
- 先看 3Blue1Brown 的神经网络视频(4集),建立直觉
- 动手跑 PyTorch 官方教程,把训练循环自己写一遍
- 读懂一篇经典论文(比如 LeNet 或 ResNet)
- 再回去看项目代码,会完全不同
2. 第0层:数学基础
不需要精通,够用即可:
| 数学方向 | 需要掌握的程度 |
|---|---|
| 线性代数 | 理解矩阵乘法和向量,神经网络本质就是矩阵运算 |
| 微积分 | 理解"导数 = 斜率 = 变化方向",会链式求导法则 |
| 概率统计 | 理解均值、分布、概率的直觉含义 |
不需要提前学完再上路,遇到问题查一查就好。
3. 第1层:核心机制
这是最值得花时间理解透的一层,只有 4 个概念。
神经网络
本质:把输入数据经过很多层"线性变换 + 激活函数",最终输出一个预测值。
每个神经元的运算:
输出 = f( w₁x₁ + w₂x₂ + w₃x₃ + b )
w= 权重(连线粗细,训练时学习的参数)b= 偏置f= 激活函数(比如 ReLU:负数归零,正数保留)
激活函数的唯一作用:引入非线性,让网络能学会弯曲的决策边界。
层越深,特征越抽象:
- 第一层学边缘
- 第二层学纹理
- 第三层学形状
- 最后一层学"这是猫还是狗"
损失函数
衡量"模型预测得有多错"的一个数字。数字越小说明预测越准。
| 损失函数 | 适用场景 | 公式 |
|---|---|---|
| MSE(均方误差) | 回归(预测连续数值,如房价) | (预测值 - 真实值)² |
| 交叉熵 | 分类(预测类别) | 衡量预测概率分布与真实分布的差异 |
把所有可能的权重组合想象成山地地形,损失函数的值是当前位置的海拔——训练目标是找最低谷。
反向传播
问题:网络有几百万个权重,怎么知道每个权重该往哪个方向调?
做的事:用链式法则,从损失出发,算出每一个权重对损失的贡献(偏导数 = 梯度)。
直觉:你考试得了低分,老师追责——是最后一题错了(层3的问题),还是因为某个基础概念没搞清楚(层1的问题)?反向传播就是这个追责过程,用数学精确地算出每个权重"该负多少责任"。
梯度下降
权重更新公式:
W_new = W_old − 学习率 × 梯度
- 梯度 = 损失增大的方向
- 减去它 = 朝损失减小的方向走一步
- 学习率控制步子大小(太大跨过最低点,太小收敛慢)
完整训练循环
① 前向传播(输入 → 预测值)
↓
② 计算损失(预测值 vs 真实值)
↓
③ 反向传播(计算各参数梯度)
↓
④ 更新参数(梯度下降一步)
↓
重复数千次 → 模型收敛
4. 第2层:基础模型类型
理解每种模型为什么被发明出来,比记架构细节重要得多:
| 模型 | 发明原因 | 适合数据 | 核心思想 |
|---|---|---|---|
| CNN | 图片的像素有空间关系,需要扫描局部图案 | 图像、空间数据 | 卷积核扫描边缘、纹理、形状等局部特征 |
| RNN / LSTM | 句子有时间顺序,后面的词依赖前面的词 | 序列、文本、时间序列 | 有"记忆"的结构,处理有顺序依赖的数据 |
| Transformer | RNN 是串行的很慢,需要并行处理 | 文本、图像、多模态 | Attention 让每个位置直接"看到"所有位置 |
5. 建议分篇阅读
为了避免一篇文章过长、阅读负担太重,我把原来的详细内容拆成了 4 篇独立专题。你可以先用这篇文章建立整体地图,再按兴趣继续往下读:
- 深度学习训练工程指南:学会看曲线、控过拟合和系统调参
- GAN、VAE 与扩散模型入门:三种生成模型一次讲清楚
- 计算机视觉学习路线图:从图像分类到检测与分割
- PyTorch 实战 CIFAR-10:手写 ResNet 并把准确率做到 94% 左右
建议阅读顺序:
- 刚入门:先把这篇总纲读完,理解“数学基础 → 核心机制 → 模型类型 → 应用方向”的层次。
- 想提升训练效果:优先看训练工程那篇,解决“模型为什么训不好”。
- 想选方向深挖:根据兴趣去看生成模型或计算机视觉。
- 想真正动手:最后再跑 CIFAR-10 实战代码,把前面的概念串起来。
6. 速查表汇总
学习顺序速查
| 阶段 | 先掌握什么 | 目标 |
|---|---|---|
| 第1步 | 数学基础 + 神经网络直觉 | 知道模型到底在学什么 |
| 第2步 | 损失函数、反向传播、梯度下降 | 理解训练循环为什么能优化 |
| 第3步 | CNN / RNN / Transformer 的差异 | 知道不同任务该用哪类模型 |
| 第4步 | 训练工程(学习率、正则化、增强) | 让模型真正训起来、训稳定 |
| 第5步 | 选一个应用方向深挖 | 从“会看概念”进入“能做项目” |
模型一句话总结
- CNN:适合图像,擅长提取局部空间特征。
- RNN / LSTM:适合序列数据,强调前后顺序关系。
- Transformer:靠注意力机制建模全局关系,并行能力强。
应用方向一句话总结
- 计算机视觉(CV):研究图像分类、检测、分割等任务。
- 自然语言处理(NLP):研究文本理解、生成与对话系统。
- 生成模型:从噪声或隐变量中生成新内容。
- 强化学习:通过奖励机制学策略,强调“试错”和长期回报。
如果你把这篇总纲当成地图,把后续专题当成分路线图,学习深度学习时会轻松很多,也更不容易迷路。