醒刻 Logo
← 返回文章列表

深度学习知识框架:从数学基础到实战代码的完整复习笔记

这篇文章作为深度学习总览地图,先帮你建立完整框架;训练工程、生成模型、CV 路线和 CIFAR-10 实战已经拆分成独立文章,阅读更轻松。

2026年3月31日 · 2036 · 更新于 2026年3月31日

如果你在学深度学习时,总觉得概念很多、知识点很散,这篇文章可以当作一份总复习提纲

我把常见内容按“数学基础 → 核心机制 → 模型类型 → 训练工程 → 应用方向 → 实战代码”的顺序重新整理,方便你在入门、复习和查漏补缺时对照查看。

为了更适合发布和阅读,我已经把原来过长的后半部分拆成了几篇独立专题。你可以先读这篇总纲,再按需要深入专题文章。

目录

  1. 整体知识框架
  2. 第0层:数学基础
  3. 第1层:核心机制
  4. 第2层:基础模型类型
  5. 建议分篇阅读
  6. 速查表汇总

1. 整体知识框架

深度学习的知识体系分为五层,从下往上依次递进:

第0层:数学基础
  └── 线性代数 · 微积分(求导) · 概率与统计

第1层:核心机制(最重要,必须理解透)
  └── 神经网络结构 · 损失函数 · 反向传播 · 梯度下降

第2层:基础模型类型(按任务选择)
  ├── CNN(图像 · 空间特征)
  ├── RNN / LSTM(序列 · 时间关系)
  └── Transformer(注意力 · 并行计算)

第3层:训练工程(让模型真正可用)
  ├── 优化器(Adam · SGD)
  ├── 正则化(Dropout · BatchNorm)
  ├── 数据处理(增强 · 归一化)
  └── 调参与诊断(学习曲线 · 超参)

第4层:应用方向(选一个深入)
  ├── 计算机视觉(CV · 检测 · 分割)
  ├── 自然语言处理(NLP · LLM · BERT)
  ├── 生成模型(GAN · VAE · Diffusion)
  └── 强化学习(DRL · 策略优化)

推荐学习顺序:

  1. 先看 3Blue1Brown 的神经网络视频(4集),建立直觉
  2. 动手跑 PyTorch 官方教程,把训练循环自己写一遍
  3. 读懂一篇经典论文(比如 LeNet 或 ResNet)
  4. 再回去看项目代码,会完全不同

2. 第0层:数学基础

不需要精通,够用即可:

数学方向需要掌握的程度
线性代数理解矩阵乘法和向量,神经网络本质就是矩阵运算
微积分理解"导数 = 斜率 = 变化方向",会链式求导法则
概率统计理解均值、分布、概率的直觉含义

不需要提前学完再上路,遇到问题查一查就好。


3. 第1层:核心机制

这是最值得花时间理解透的一层,只有 4 个概念。

神经网络

本质:把输入数据经过很多层"线性变换 + 激活函数",最终输出一个预测值。

每个神经元的运算:

输出 = f( w₁x₁ + w₂x₂ + w₃x₃ + b )
  • w = 权重(连线粗细,训练时学习的参数)
  • b = 偏置
  • f = 激活函数(比如 ReLU:负数归零,正数保留)

激活函数的唯一作用:引入非线性,让网络能学会弯曲的决策边界。

层越深,特征越抽象:

  • 第一层学边缘
  • 第二层学纹理
  • 第三层学形状
  • 最后一层学"这是猫还是狗"

损失函数

衡量"模型预测得有多错"的一个数字。数字越小说明预测越准。

损失函数适用场景公式
MSE(均方误差)回归(预测连续数值,如房价)(预测值 - 真实值)²
交叉熵分类(预测类别)衡量预测概率分布与真实分布的差异

把所有可能的权重组合想象成山地地形,损失函数的值是当前位置的海拔——训练目标是找最低谷。

反向传播

问题:网络有几百万个权重,怎么知道每个权重该往哪个方向调?

做的事:用链式法则,从损失出发,算出每一个权重对损失的贡献(偏导数 = 梯度)。

直觉:你考试得了低分,老师追责——是最后一题错了(层3的问题),还是因为某个基础概念没搞清楚(层1的问题)?反向传播就是这个追责过程,用数学精确地算出每个权重"该负多少责任"。

梯度下降

权重更新公式:

W_new = W_old − 学习率 × 梯度
  • 梯度 = 损失增大的方向
  • 减去它 = 朝损失减小的方向走一步
  • 学习率控制步子大小(太大跨过最低点,太小收敛慢)

完整训练循环

① 前向传播(输入 → 预测值)
       ↓
② 计算损失(预测值 vs 真实值)
       ↓
③ 反向传播(计算各参数梯度)
       ↓
④ 更新参数(梯度下降一步)
       ↓
重复数千次 → 模型收敛

4. 第2层:基础模型类型

理解每种模型为什么被发明出来,比记架构细节重要得多:

模型发明原因适合数据核心思想
CNN图片的像素有空间关系,需要扫描局部图案图像、空间数据卷积核扫描边缘、纹理、形状等局部特征
RNN / LSTM句子有时间顺序,后面的词依赖前面的词序列、文本、时间序列有"记忆"的结构,处理有顺序依赖的数据
TransformerRNN 是串行的很慢,需要并行处理文本、图像、多模态Attention 让每个位置直接"看到"所有位置

5. 建议分篇阅读

为了避免一篇文章过长、阅读负担太重,我把原来的详细内容拆成了 4 篇独立专题。你可以先用这篇文章建立整体地图,再按兴趣继续往下读:

  1. 深度学习训练工程指南:学会看曲线、控过拟合和系统调参
  2. GAN、VAE 与扩散模型入门:三种生成模型一次讲清楚
  3. 计算机视觉学习路线图:从图像分类到检测与分割
  4. PyTorch 实战 CIFAR-10:手写 ResNet 并把准确率做到 94% 左右

建议阅读顺序:

  • 刚入门:先把这篇总纲读完,理解“数学基础 → 核心机制 → 模型类型 → 应用方向”的层次。
  • 想提升训练效果:优先看训练工程那篇,解决“模型为什么训不好”。
  • 想选方向深挖:根据兴趣去看生成模型或计算机视觉。
  • 想真正动手:最后再跑 CIFAR-10 实战代码,把前面的概念串起来。

6. 速查表汇总

学习顺序速查

阶段先掌握什么目标
第1步数学基础 + 神经网络直觉知道模型到底在学什么
第2步损失函数、反向传播、梯度下降理解训练循环为什么能优化
第3步CNN / RNN / Transformer 的差异知道不同任务该用哪类模型
第4步训练工程(学习率、正则化、增强)让模型真正训起来、训稳定
第5步选一个应用方向深挖从“会看概念”进入“能做项目”

模型一句话总结

  • CNN:适合图像,擅长提取局部空间特征。
  • RNN / LSTM:适合序列数据,强调前后顺序关系。
  • Transformer:靠注意力机制建模全局关系,并行能力强。

应用方向一句话总结

  • 计算机视觉(CV):研究图像分类、检测、分割等任务。
  • 自然语言处理(NLP):研究文本理解、生成与对话系统。
  • 生成模型:从噪声或隐变量中生成新内容。
  • 强化学习:通过奖励机制学策略,强调“试错”和长期回报。

如果你把这篇总纲当成地图,把后续专题当成分路线图,学习深度学习时会轻松很多,也更不容易迷路。

评论区