超越问答:构建具备“感知-规划-执行”能力的 AI 系统
导语:当我们谈论大模型应用时,大多还停留在“输入-输出”的聊天框里。但真正的产业落地,需要一套能自主感知、精准检索、专业执行并安全连接外部世界的架构体系。Agent、RAG、Skill 和 MCP,正是构成这套新范式的四根支柱。本文不重复定义,而是带你理解它们从何而来,以及如何共同运转。
一、架构进化的必然:从“大脑”到“智能体”
一个纯粹的大语言模型,本质上是封闭的“缸中之脑”。它的知识凝固在训练截止的那一刻,且无法与物理世界发生任何交互。这在产业应用面前,无异于“纸上谈兵”。
为了让AI真正胜任工作,我们必须为这个大脑依次装上三样东西:
- 神经系统(感知与记忆):让它能接触到最新的、私有的知识。
- 肌肉骨骼(执行与操作):让它能操作工具、调用系统。
- 行为规范(专业技能与流程):让它能稳定、高质量地完成特定任务。
Agent、RAG、Skill 和 MCP,正是从这四个维度出发,共同定义了一套可扩展、可维护、可协同的 AI 应用架构。它们并非功能列表,而是一个层层递进的解决方案。

图1:AI 应用的能力金字塔。Agent 居于顶层,充当“决策与调度中心”,RAG 是其“知识中枢”,Skill 提供可复用的“能力模组”,MCP 则是连接外部世界的“通用总线”。
二、Agent:从“应答循环”到“决策循环”的质变
2.1 本质:一场关于“自主性”的变革
Agent 的诞生,源于对“一步到位”问答模式的根本性不满。其革命性在于,它将 LLM 的“单次推理”升级为“持续推理-行动-观测”的闭环。这不仅是技术升级,更是人机交互范式的转变:我们不再只是向模型提问,而是向它委托一个需要自主完成的目标。
2.2 行为模式对比:执行者 vs 参谋
| 视角 | 传统 LLM | 智能体 |
|---|---|---|
| 角色 | 提供参考意见的“参谋” | 对结果负责的“执行者” |
| 思维链 | 线性的:分析-回答 | 循环的:思考-行动-观察-再思考 |
| 核心能力 | 理解与归纳 | 规划、拆解、执行与反思 |
| 状态 | 无状态的,一问一答 | 有状态的,在任务中持续更新记忆 |
真实的 Agent 面对“优化网页加载速度”这类任务时,其思维链条是动态的。它会自主决定:先测速,发现某张图片过大,再压缩图片,之后重新部署并验证效果。整个过程它既是“诊断医生”,又是“执行技师”。
2.3 内部运作机制:一个永不停止的“引擎”
Agent 的核心是一个由 LLM 驱动的“状态机”。它在一个循环中反复执行:评估当前状态 → 生成行动计划 → 执行计划并获取反馈 → 更新状态。

图2:Agent 的精髓在于“规划”与“反思”,它使得模型能够从错误中学习,动态调整策略。
这种结构化的思考过程,让 Agent 即便面对歧途,也能像经验丰富的工程师一样,根据错误日志及时“刹车”并“调头”,而不是一错到底。
2.4 工程落地的关键反思
构建 Agent 的最大挑战不是技术实现,而是“失控的自主性”。一个自主决策的系统,其成本、安全和可靠性都需要重新设计保障体系。我们需要为它设定“决策边界”,在成本暴增或逻辑可疑时,及时介入,将控制权重回人类手中。
三、RAG:为模型搭建“私有知识神经网”
3.1 本质:记忆的外延
RAG 的哲学是“知识与推理的分离”。它承认模型的强大推理能力,但不依赖其不可靠的参数化记忆。通过将事实性知识外置到一个可实时检索的“数字海马体”中,RAG 实现了对幻觉的物理隔离。这就像考试时可以查阅的“开卷资料库”——推理能力归你,但事实必须引经据典。
3.2 解决 LLM 的“理性与感性的错位”
| 痛点 | 表现 | RAG的约束机制 |
|---|---|---|
| 时间错位 | 用去年的知识回答今天的问题 | 建立时间维度的动态索引 |
| 虚构事实 | 将“合理推测”当作“既定事实” | 强制要求答案与检索片段对齐,实现“有据可查” |
| 权限真空 | 对所有人给出相同的通用答案 | 基于用户权限,检索不同密级的文档 |
3.3 深入“检索”与“生成”的协作艺术
RAG 的成败不取决于生成模型的强大,而在于 “检索的精准度”。糟糕的检索会给模型灌入“噪声”,再强的推理也无能为力。其工作流是一次精密的协奏:

图3:索引阶段的“切分”与“向量化”是在为知识世界绘制地图,而检索阶段的“重排序”则是训练一位精准的向导。
关键洞察:我们需要将“用户的提问语言”和“文档的索引语言”对齐。利用查询重写技术,将“这个问题怎么解决?”翻译成“某某故障排查手册”,这是让 RAG 变“聪明”的一步关键翻译。
3.4 RAG 与微调的辩证关系
这是两条不同赛道的选择。RAG 解决的是“信息不对称”问题,让模型接触到它本不知道的外部知识;而微调解决的是“能力不对称”问题,让模型掌握它本不会的输出格式或推理风格。一个务实的策略是:以 RAG 为基石解决知识新鲜度,以微调为顶点优化特定任务的表达。
四、Skill:从“临时起意”的 Prompt 到“标准化”的专业能力
4.1 本质:能力的封装与固化
Skill 的诞生,是为了对抗 Prompt Engineering 的“玄学”与不稳定性。它是对一个专业任务的完整数字化描述,将一次性的提示词、工具组合、校验逻辑和输出格式打包为一个可调用的原子单元。这遵循了软件工程最古老的原则——将高频、复杂、不稳定的操作,封装成稳定、可复用的接口。
4.2 超越工具的“领域智能”
Skill 与普通工具调用的本质区别在于,它内化了一条 “最佳实践路径”。
一个“工单分析 Skill”不仅知道如何调用 JIRA API,更重要的是,它内置了分析异常工单的模式识别能力,知道应该关注复现步骤、关联版本和用户环境,并输出结构化的诊断草案。它把一个资深专家的排查思路,变成了一个开箱即用的能力包。
# 一个 Skill 的“核心资产”不是代码,而是沉淀下来的领域知识
# 它描述的不仅是 How to do,更是 What to do best
name: "incident-analyzer"
description: "对生产事故进行结构化复盘与改进追踪"
triggers: ["分析事故", "复盘工单"]
inputs:
- name: "incident_url"
type: "string"
required: true
# 这里的 prompt_template 熔铸了资深 SRE 多年的事故分析方法论
prompt_template: |
作为故障分析专家,请按“时间线、根因、影响、修复、改进”五步法分析下述事故...
尤其关注对部署流程和监控系统的改进建议...
tools: ["ticket_reader", "deploy_log_query", "monitor_chart_fetcher"]
output_schema: { timeline: [...], root_cause: "...", action_items: [...] }
4.3 在 Agent 框架内的协作模式
一个成熟的 Agent 就像一个经验丰富的项目经理,它心中有一本“专家花名册”。接到任务时,它会首先翻阅这本花名册,寻找匹配的 Skill。这种基于意图识别的动态路由,使得系统能够以“通用能力兜底,专业能力攻坚”的方式灵活运转,极大提升了处理复杂任务的可靠性。
五、MCP:AI 工具链的“通用 API 总线”
5.1 本质:消除集成复杂度
MCP 的精髓在于一个深刻的设计思想——不要尝试理解工具,而是定义一个“工具如何被理解”的标准。在 MCP 的规则下,AI 不再需要为每个 API 编写特定的适配代码,它只需要掌握一种语言,就能与实现该标准的任何工具对话。这完美解决了集成领域的 M×N 问题,从网状集成变为星型集成。
5.2 架构模型:一个标准,两种形态
MCP 的架构极其清晰,定义了三种角色来完成这场“标准对话”:
- 宿主:用户界面和 AI 引擎所在。
- 客户端:运行在宿主体内,负责协议翻译的“外交官”。
- 服务器:独立运行的、封装了具体功能的标准化“服务员”。

图4:MCP 定义了 AI 世界的“插头”与“插座”规格,让任何符合规格的工具都能被即插即用。
5.3 交互流程:被定义的“发现-调用-返回”循环
- 能力广播:Server 启动,向 Client 广播自己拥有的工具、资源和提示词模板。
- 实时发现:当用户提出需求,LLM 通过 Client 查询所有已连接 Server 的能力清单。
- 标准调用:LLM 生成标准格式的工具调用请求,Client 将其路由到对应的 Server。
- 结果反馈:Server 执行完毕,将结果以统一的结构化格式返回给 LLM。
- 业务闭环:LLM 消化结果,继续推理或给出最终答案。
5.4 生态定位:从封闭花园到开放大陆
MCP 的终极目标,是成为 AI 时代的 HTTP 协议。它不是一个单点功能,而是一项基础设施标准,旨在打破大模型厂商各自为政的工具调用壁垒,建立一个蓬勃、去中心化的 AI 工具开源生态。选择 MCP,就是选择了一种面向未来的、更具韧性的架构。
六、协奏曲:在现实场景中编排它们
一个高级的 AI 应用,绝非这四个概念的简单堆砌,而是一场精心的编排。
- Agent 是总指挥,负责读谱并调动所有声部。
- RAG 是乐谱库,为演奏提供准确的信息来源。
- Skill 是固定的演奏技法,保证特定乐段的演绎质量。
- MCP 是标准化的乐器接口,让小提琴和钢琴能和谐共处。
一个智能客服系统的完整协作链条:
- 用户发起退款,Agent 激活“退款处理 Skill”。
- Skill 指导 Agent 必须依序获取订单号、校验退款资格、执行退款操作。
- Agent 通过 MCP 分别调用 CRM Server 校验资格,调用 支付网关 Server 执行退款。
- 过程中,若用户询问退款政策,Agent 切换至 RAG 模块,从政策知识库中检索原文进行精准解答。
七、决策框架:不同场景下的架构组合建议
| 典型场景 | 核心痛点 | 架构组合建议 | 决策逻辑 |
|---|---|---|---|
| 内部知识库 | 答案不准确,幻觉严重 | RAG | 问题集中于知识查询,单轮精准检索即可解决,无需多轮自主规划。 |
| 研发效能助手 | 工具链割裂,操作繁琐 | Agent + Skill + MCP | 需要串联 IDE、Git、CI/CD 等多个系统,必须由 Agent 调度,用 MCP 打通,用 Skill 保证质量。 |
| 智能客服 | 查询与操作分离,流程固定 | Agent + RAG + MCP | 知识查询用 RAG,业务操作有固定流程可用 Skill 封装,MCP 连接后台系统。 |
| 自动化报表分析 | 意图多变,查询复杂 | Agent + MCP (+ RAG) | Agent 拆解自然语言意图并生成查询,MCP 安全执行数据库操作,RAG 可选用于辅助理解表结构。 |
| 内容创作流水线 | 质量不稳定,风格难统一 | Agent + Skill | 将选题、撰写、配图、审核等环节封装成多个 Skill,由 Agent 按需调度,形成可控的创作流。 |
这套架构的价值不在于追随技术热词,而在于它提供了一套 “将 AI 能力工程化” 的方法论。掌握了它们,你不仅能理解当下,更能从容面对未来层出不穷的新模型、新工具,因为它们都将被纳入这个不断进化的框架之中。
