醒刻 Logo
← 返回文章列表

从机器学习到智能体:一篇文章理清 AI 核心概念与演进脉络

机器学习、深度学习、模型、Agent、MCP、Skills 之间到底是什么关系?这篇文章用一条清晰主线,把 AI 从“会预测”到“会干活”的演进过程讲明白。

2026年3月22日 · 5272 · 更新于 2026年3月22日

这两年,AI 领域几乎每隔一段时间就会冒出一批新词。

前几年大家还在聊机器学习、深度学习、神经网络,后来开始聊大模型、Transformer、RAG,再到现在,AI AgentMCPSkills 这些词又越来越常见。

对刚接触这个领域的人来说,最容易出现的问题不是“完全看不懂”,而是“每个词都好像懂一点,但放在一起就乱了”。

比如:

  • 机器学习和深度学习到底是什么关系?
  • 大模型到底算模型,还是算 Agent?
  • 为什么大家说大模型只是“大脑”,真正干活还要靠 Agent?
  • MCP 和 Skills 又为什么突然变得这么重要?

这篇文章想做的事情很简单:不堆术语,不讲过多历史细节,只用一条尽量清晰的主线,把这些概念串起来。

你可以把它理解成一张 AI 学习地图。读完之后,至少应该能把下面这条链路理顺:

机器学习 -> 深度学习 -> 大模型 -> Agent -> MCP / Skills

为什么很多人学 AI 时会越学越乱?

因为这些概念并不是并列关系,而是层层演进、彼此包含的关系。

很多资料会把它们拆开讲,结果就是你每一块都学过一点,但脑子里始终没有一条完整主线。

更直白一点说:

  • 机器学习 是大类
  • 深度学习 是机器学习里的一个重要分支
  • 大模型 是深度学习发展到一定阶段后的产物
  • Agent 是在大模型之上,再加记忆、工具、规划和执行能力形成的系统
  • MCP / Skills 是为了让 Agent 更容易接工具、更容易复用能力而出现的标准化方案

如果先有这张总图,后面很多概念就不会那么容易混。

1. 机器学习:让计算机从数据里学规律

先看最上层的概念。

机器学习 本质上是在做一件事:让计算机不是靠人手写死规则,而是从数据中自己总结规律。

传统编程更像这样:

  • 人先想好规则
  • 再把规则写进程序
  • 程序按规则执行

机器学习则更像这样:

  • 先给模型大量样本
  • 再让它自己找规律
  • 最后拿这个规律去处理新数据

比如你给系统很多猫和狗的图片,并告诉它哪些是猫、哪些是狗。训练完成后,它再看到一张新图片,就有机会判断这是一只猫还是一只狗。

这就是“学习”的意思。

机器学习常见的几种学习方式

很多人一开始会被各种“学习”绕晕,其实可以先记最核心的五种。

监督学习

有输入,也有标准答案。

模型做的事情,是学习“输入到输出”的映射关系。

常见任务:

  • 图片分类
  • 垃圾邮件识别
  • 房价预测

这是最经典、也最容易理解的一类机器学习任务。

无监督学习

只有数据,没有标准答案。

模型要自己去发现数据里的结构和规律。

常见任务:

  • 用户分群
  • 异常检测
  • 数据降维

如果说监督学习像“老师批改过作业”,那无监督学习更像“让模型自己归纳整理资料”。

半监督学习

少量数据有标签,大量数据没标签。

这种方法的价值在于:现实世界里,人工标注数据通常很贵,所以大家会尽量把“少量高质量标注”与“大量未标注数据”结合起来用。

强化学习

这类学习和前面几种不太一样。

它不是看一批静态数据来学习,而是让一个智能体不断和环境交互,根据“奖励”或“惩罚”去调整行为,目标是学会长期更优的策略。

典型例子:

  • 下棋
  • 游戏对战
  • 机器人控制
  • 自动驾驶中的决策问题

自监督学习

这是大模型时代特别重要的一种方法。

它的思路是:不用人工给标签,而是从原始数据本身构造训练目标。

比如在文本里遮住一个词,让模型去预测;或者让模型根据前面的词预测下一个词。

BERTGPT 这类大语言模型,背后的预训练核心都离不开自监督学习。

机器学习不只是“选个模型”这么简单

很多新手会以为机器学习就是“挑一个算法,然后喂数据”,其实远不止如此。

一个完整的机器学习系统,通常至少包含这几个核心部分:

  • 数据:你拿什么来训练
  • 模型:你用什么结构去拟合规律
  • 损失函数:你怎么衡量模型现在做得好不好
  • 优化算法:你怎么一步步把模型调好
  • 评估方式:你怎么确认它学到的是规律,而不是死记硬背

所以机器学习真正难的地方,往往不是“知道几个名词”,而是理解这些部分如何一起工作。

2. 深度学习:机器学习里最强势的一条路线

深度学习机器学习 的一个子集。

它之所以叫“深度”,是因为它通常使用多层神经网络来做学习。层数更多、结构更复杂,意味着它可以从原始数据中逐层提取更抽象的特征。

你可以简单理解成:

  • 传统机器学习,很多时候需要人工设计特征
  • 深度学习,很多时候可以自己从数据里学出特征

比如识别猫的图片:

  • 传统方法可能需要人手动设计“耳朵形状”“边缘纹理”“脸部轮廓”这些特征
  • 深度学习则可以直接吃原始像素,然后自己逐层学出低级特征、中级特征和高级特征

这就是它为什么这么强。

神经网络训练到底在干什么?

如果用最朴素的话来说,训练过程其实就是一个不断试错的循环:

  1. 先根据当前参数做一次预测
  2. 再拿预测结果和真实答案做比较
  3. 算出差距有多大
  4. 根据差距去调整参数
  5. 重复很多轮,直到效果逐渐变好

这套流程在术语上通常对应:

  • 前向传播:把输入送进网络,得到输出
  • 损失函数:计算输出和真实结果之间的差距
  • 反向传播:把误差往回传,算出每个参数该怎么调
  • 优化器:真正执行参数更新

你可以把它理解成一个长期反复纠错的过程。

为什么深度学习会突然变得这么重要?

因为它在很多复杂任务上,比传统机器学习更有优势,尤其是下面这些场景:

  • 图像识别
  • 语音识别
  • 自然语言处理
  • 多模态任务

而大模型的爆发,本质上就是深度学习继续往前推进的结果。

几类很重要的网络结构

新手不需要一开始就把所有架构背下来,但下面几类确实值得有个基本印象。

CNN:处理图像很经典

卷积神经网络(CNN) 很擅长处理图像这类网格状数据。

它的特点是能抓局部特征,比如边缘、纹理、形状,然后逐层组合成更复杂的视觉理解能力。

经典应用:

  • 图像分类
  • 目标检测
  • 图像分割

Transformer:大模型时代的核心架构

Transformer 最早在自然语言处理里火起来,后来几乎成了大模型时代最关键的基础架构。

它最重要的能力,是通过注意力机制更好地理解“一个位置和另一个位置之间的关系”。

这让它特别适合处理:

  • 长文本
  • 上下文依赖强的任务
  • 多模态统一建模

今天大家熟悉的 GPTBERT,包括很多视觉模型、多模态模型,都和 Transformer 密切相关。

生成模型:让 AI 不只是分类,还能“创造”

前面的模型很多是在判断“这是什么”,生成模型则进一步做到“生成新的内容”。

常见路线有:

  • GAN
  • Diffusion

它们被广泛用于:

  • 文生图
  • 图像编辑
  • 音频生成
  • 视频生成

Stable DiffusionDALL·E 这类产品,都属于这一大类思路下的产物。

3. 模型到底是什么?

聊到这里,很多人脑子里还是会有一个疑问:

模型到底是什么?

最简单的理解是:

模型就是一个训练好的“参数化函数”。

它接收输入,经过内部参数计算,再给出输出。

比如:

  • 输入一句话,输出下一句话
  • 输入一张图片,输出分类结果
  • 输入一段提示词,输出一张图

所以模型不是一个“会主动干活的小人”,它更像一个已经训练好的计算装置。

模型为什么会表现出不同专长?

因为它的能力很大程度上取决于两件事:

  • 用什么数据训练
  • 用什么目标训练

比如:

  • 用大量图像和标签训练,模型更擅长视觉任务
  • 用海量文本做下一个词预测,模型更擅长语言理解与生成
  • 再用对话数据和偏好数据继续调优,它就更像聊天助手

也就是说,模型的“能力边界”并不是凭空来的,而是被训练过程塑造出来的。

大模型本质上也是模型

很多人会把“大模型”想得很神秘,但它本质上仍然是模型。

只不过它有几个很明显的特点:

  • 参数规模更大
  • 训练数据更多
  • 泛化能力更强
  • 能处理更多开放式任务

所以大模型并不是脱离“模型”这个概念的新物种,而是模型发展到更大规模、更强能力之后的一种表现形式。

4. 为什么说大模型像“大脑”,但还不等于 Agent?

这是理解 Agent 最关键的一步。

一个大语言模型再强,它本身通常也只是:

  • 接收输入
  • 基于上下文进行推理
  • 输出文本或结构化结果

它能做很多看起来很聪明的事情,但这不等于它天然就能“自主完成任务”。

大模型本身的几个典型局限

1. 它没有真正持久的记忆

很多对话系统看起来像“记得你之前说过什么”,其实很多时候只是把对话历史再次喂给模型。

如果没有额外的记忆机制,它并不会像人一样长期记住你。

2. 它不会自己真的调用现实工具

模型可以输出:

我现在去帮你查天气。

但如果没有外部程序配合,这句话只是文本,不会真的执行任何操作。

3. 它不天然擅长长流程任务执行

如果你让它直接完成一个复杂目标,比如:

  • 帮我做旅行规划
  • 帮我整理一份市场调研
  • 帮我查资料后写邮件并发出去

它可能会一次性给你一大段答案,但这不等于它真的完成了“规划、查询、执行、校验、修正”这一整套过程。

所以,大模型很强,但它更像一个强大的推理与生成核心,而不是完整任务系统。

5. Agent:让模型从“会回答”变成“会干活”

Agent 可以理解成:以模型为核心,再外挂一整套执行系统。

如果说模型是“大脑”,那 Agent 更像是一个带手、带脚、带工具箱、还能持续行动的系统。

它通常会在模型外面补上这些能力:

  • 记忆
  • 工具调用
  • 任务规划
  • 执行循环
  • 结果观察
  • 失败重试
  • 必要时向用户确认

一个更贴近现实的 Agent 工作过程

假设用户说:

帮我查一下北京明天的天气,再整理成一段简短消息。

一个 Agent 可能会这样工作:

  1. 先理解任务目标
  2. 调用天气查询工具
  3. 读取返回结果
  4. 判断信息是否足够
  5. 再生成适合发送的简短文本
  6. 把最终结果返回给用户

如果任务更复杂,比如“查天气并发送邮件给老板”,那它还要继续:

  1. 调用发邮件工具
  2. 检查发送是否成功
  3. 再把执行结果告诉用户

这时候你会发现,真正关键的已经不只是“模型会不会说”,而是整个系统能不能稳定完成任务。

Agent 的核心,不是单次回答,而是循环执行

一个典型 Agent 往往不是“一问一答”式工作,而是不断循环:

思考 -> 调用工具 -> 观察结果 -> 再思考 -> 再执行

这和普通聊天最大的区别就在这里。

普通聊天模型通常只负责“生成一次输出”,而 Agent 更强调“为了完成目标,持续推进任务”。

Agent 发展的大致几个阶段

如果你想快速理解 Agent 是怎么演进过来的,可以简单记这几个阶段。

第一阶段:只有模型

只能输出文本。

没有外部工具,没有长期记忆,也没有完整执行链路。

第二阶段:Function Calling

模型可以输出结构化的“调用某个函数”的指令。

这已经让它具备了“连接工具”的基础能力,但每个工具通常还是要开发者自己接。

第三阶段:Agent 框架

LangChainLangGraph 这类框架,开始把记忆、规划、状态流转、工具调用这些能力系统化。

这让开发 Agent 不再需要每次都从零搭。

第四阶段:标准化工具生态

也就是近两年越来越多人在聊的方向:

  • MCP
  • Skills
  • 更标准化的工具接入方式

它们的目标很明确,就是让 Agent 接工具这件事,不要再每次都重新造轮子。

6. MCP:为什么它会被看作 Agent 时代的重要基础设施?

MCP 的全称是 Model Context Protocol

你不用一开始就死记它的技术细节,先理解它解决的问题更重要。

过去,如果你想让模型接一个工具,通常要自己处理很多事情:

  • 定义这个工具是干什么的
  • 定义输入参数长什么样
  • 定义返回结果怎么描述
  • 把它接进某个 Agent 框架里

这意味着每加一个工具,开发成本都不低。

MCP 想解决的,就是这个“接工具太碎、太散、太不统一”的问题。

你可以把 MCP 理解成 AI 工具世界里的统一接口

一个常见类比是 USB-C

有了统一接口之后:

  • 工具提供方按标准暴露能力
  • Agent 或宿主应用按标准接入能力
  • 双方不需要每次都做一套私有对接

这就是 MCP 最核心的意义。

MCP 里常见的几个角色

你可以先粗略记住三个角色:

  • MCP Host:运行模型能力的应用
  • MCP Client:负责和 MCP Server 通信
  • MCP Server:真正提供工具或资源能力的程序

比如某个 MCP Server 可能提供:

  • 文件系统操作
  • 数据库访问
  • 浏览器自动化
  • 搜索能力
  • 企业内部 API 能力

这样模型就不只是“知道某件事”,而是能通过标准化方式真正去“做某件事”。

MCP 为什么重要?

因为它提升的不是某一个模型的智商,而是整个 Agent 生态的连接效率。

说得更直接一点:

  • 没有统一标准时,接一个工具就要单独适配一次
  • 有统一标准后,工具可以更容易复用
  • 工具越容易复用,Agent 生态增长越快

这也是为什么很多人会把 MCP 看成 Agent 时代非常关键的一层基础设施。

7. Skills:为什么它像“能力包”?

如果说 MCP 更偏“协议和连接标准”,那 Skills 更像是面向使用者的“能力封装”。

你可以把它理解成:

  • 某一类工作流的打包结果
  • 一组工具、提示词、规则和配置的组合
  • 可以被快速安装、复用的能力模块

比如一个“写代码评审”的 Skill,可能不只是一个 Prompt,而是包含:

  • 如何读取代码
  • 如何组织审查步骤
  • 如何输出审查结果
  • 需要调用哪些工具

所以 Skills 的价值,不只是“多一个功能按钮”,而是把经验也一起打包了。

这对个人和团队都很重要,因为它能减少重复搭建工作流的成本。

8. 把整条链路串起来:从“会预测”到“会执行”

聊到这里,我们可以把前面的概念重新串成一条完整主线。

第一层:机器学习

让计算机通过数据学习规律,而不是完全依赖手写规则。

第二层:深度学习

用多层神经网络提升从复杂数据中学习规律的能力。

第三层:模型与大模型

把训练结果固化成一个可以复用的智能组件。大模型则是在规模、数据和泛化能力上更强的一类模型。

第四层:Agent

在模型之上补齐记忆、工具、规划和执行循环,让系统真正能朝着任务目标持续行动。

第五层:MCP / Skills

让工具接入和能力复用变得更标准化、更低成本,推动 Agent 从“能做 demo”走向“更像完整生态”。

这条线如果用一句话总结,就是:

AI 的发展,正在从“会预测、会生成”,逐步走向“会调用工具、会执行任务、会复用能力”。

9. 如果你是初学者,应该怎么学这一整套东西?

很多人看到这里会问:那我到底应该从哪里开始?

我的建议是,不要一上来就扑进最热的名词,而是按层次学。

第一阶段:先把基础概念理顺

这一阶段重点是建立地图感,知道每个词大概在什么位置。

建议先搞清楚:

  • 机器学习是什么
  • 深度学习是什么
  • 神经网络训练在干什么
  • 模型和大模型是什么关系

如果这层没理顺,后面学 Agent 往往会觉得像在背新名词。

第二阶段:补最基础的工程能力

如果你想继续往下走,至少要有这些基础:

  • Python
  • 基本的数据处理能力
  • API 调用
  • 最基础的 Web 服务概念

因为到了 Agent 开发阶段,很多问题其实已经不是“模型原理题”,而是“系统工程题”了。

第三阶段:再学大模型应用开发

这时你可以重点接触:

  • Prompt 基础
  • Function Calling
  • RAG
  • Agent 框架
  • 工具接入

等这些概念串起来之后,再去看 MCP、Skills,就会容易很多。

10. 总结:先有大脑,再有行动系统,最后形成生态

如果只记一段话,我希望你记住下面这段:

  • 机器学习 是总方向,核心是从数据中学习规律
  • 深度学习 是机器学习里最重要的一条路线,用神经网络处理复杂任务
  • 模型 是训练后的智能组件,大模型只是能力更强、规模更大的一类模型
  • Agent 不是单独替代模型的新东西,而是把模型放进一个能记忆、能调用工具、能执行任务的系统里
  • MCP / Skills 则是在 Agent 之上,继续解决“能力怎么标准化接入、怎么复用、怎么形成生态”的问题

所以从更宏观的角度看,AI 的演进可以理解成三个阶段:

  1. 先让模型变聪明
  2. 再让模型能行动
  3. 最后让行动能力可以被标准化复用

这就是为什么今天大家会越来越频繁地从“大模型”聊到“Agent”,再聊到“MCP”和“Skills”。

因为行业真正关心的,已经不只是模型会不会回答问题,而是它能不能稳定接入现实世界、完成任务,并融入更大的工具生态。

如果你刚开始学 AI,这篇文章最重要的作用,不是让你一次学会所有细节,而是帮你先建立一张不容易迷路的地图。

有了这张地图,后面你再去学具体的算法、框架、产品和工程实践,就会顺很多。

评论区