一文读懂 AI 应用里的常见概念：从 Prompt、RAG 到 Agent、Plugin、Skill、MCP

这两年 AI 领域的新概念冒得太快了：Prompt、Embedding、RAG、Function Calling、Workflow、Agent、Plugin、Skill、Memory、Guardrails、MCP……

很多人第一次接触时都会有同一种感受：每个词都好像懂一点，但一放到一起就开始混。

尤其是到了真正做产品的时候，最容易混的往往不是 Prompt 和 RAG，而是这些“长得都像扩展能力”的词：

Tool
Plugin
Connector
App
MCP Server
Skill

这篇文章的目标不是把术语讲得很学术，而是用 2026 年 5 月 19 日 这个时间点上仍然不过时的视角，把 AI 应用里最常见的一组概念串起来。你看完之后，至少会知道三件事：

每个词大概是什么意思
它们彼此是什么关系
真正做 AI 应用时，先关心哪些，后关心哪些

一、先记住一句总纲

如果把一个 AI 应用拆开来看，你可以粗略把这些概念分成 5 层：

模型层：Model、Token、Context Window
知识层：Embedding、Vector Store、RAG、Memory
执行层：Tools / Function Calling、Workflow、Agent、Skill
协议层：MCP
产品封装层：Plugin、Connector、App

一句话理解：

模型负责“想”，知识层负责“补脑”，执行层负责“干活”，协议层负责“怎么连”，产品封装层负责“怎么把这些能力交付给用户”。

二、Model：大模型是“大脑”，但不是整个应用

先从最底层说起。

Model（模型） 就是 Claude、GPT、Gemini、Qwen 这类大语言模型本身。它负责理解输入、生成输出、推理、总结、改写、规划。

但模型本身并不等于完整 AI 应用，因为它通常有几个天然限制：

它的知识有训练截止范围
它默认看不到你的私有数据
它不能天然操作你的数据库、GitHub、CMS、工单系统
它也不一定知道你公司的工作规范

所以真实产品里，模型往往只是核心“大脑”，外面还要配很多层。

三、Prompt：你怎么和模型说话，决定它怎么干活

Prompt（提示词） 本质上就是你给模型的指令和上下文。

它不只是“问一句话”那么简单，通常还包括：

角色设定
输出格式要求
任务边界
可用资料
不该做什么

比如下面这两句，效果可能完全不同：

“总结一下这份文档。”

和：

“你是企业售前顾问，请用给管理层汇报的口吻，把这份文档总结成 5 条要点，每条不超过 60 字，并标出其中 2 个风险点。”

后者其实已经不只是提问，而是在定义一段工作方式。

很多人把 Prompt 低估了，但在 2026 年，Prompt 仍然是 AI 应用里最便宜、回报最高的优化手段之一。

四、Token 和 Context Window：模型不是“无限记忆”

1. Token 是模型处理文本的基本单位

你可以把它理解成“模型吃进去和吐出来时用的小颗粒”。一段文字、一个标点、一个代码片段，都会被拆成 token。

2. Context Window 是模型单次能看到的上下文上限

这决定了模型一次能“记住”多少内容。超过窗口的内容，就得截断、总结或者另想办法处理。

为什么这很重要？因为很多问题不是模型不聪明，而是你塞给它的上下文太乱、太多、太旧，或者根本没塞进去。

这也直接引出了后面的 RAG、Memory、MCP 等概念。

五、Embedding：把文本变成“可比较的向量”

Embedding（向量表示） 可以理解成：把一句话、一段文档、一个知识点，转换成一串数字，让机器可以比较“语义上像不像”。

比如：

“怎么重置密码？”
“忘记登录密码怎么办？”

字面不完全一样，但语义接近。Embedding 就是帮系统捕捉这种“意思相近”。

Embedding 自己不直接回答问题，它更像是 AI 检索系统的基础设施。

六、Vector Store：专门给语义检索准备的知识仓库

有了 Embedding 之后，你就能把文档、FAQ、代码、产品资料切成很多小片段，转成向量，再存到 Vector Store（向量存储） 里。

它的作用不是“保存原文”这么简单，而是支持一种能力：

当用户提出一个问题时，先找出语义最相关的内容片段。

截至 2026 年 5 月 19 日，OpenAI 官方文档里仍把 vector stores 和 file search 作为知识增强的重要组成部分来介绍。换句话说，向量存储不是概念炒作，而是主流 Agent / Retrieval 系统的基础层之一。

七、RAG：先查资料，再回答

RAG（Retrieval-Augmented Generation，检索增强生成） 是过去两年最常见的 AI 应用模式之一。

它的基本流程很简单：

用户提问
系统先去知识库检索相关内容
把检索结果连同问题一起发给模型
模型基于这些资料生成答案

所以 RAG 的核心不是“模型知道更多”，而是：

让模型在回答前，先看你指定的资料。

一个最典型的例子

如果你做企业知识助手，用户问：

“我们给华东渠道的返佣政策现在是什么？”

这类问题不能靠模型瞎猜，正确做法就是：

先从制度文档里检索相关段落
再把结果给模型总结

这就是 RAG。

八、Function Calling / Tool Calling：让模型不只是会说，还能会做

Function Calling，现在也经常直接叫 Tool Calling。

它的意思是：你把一些外部能力以工具的形式暴露给模型，模型在合适的时候可以主动请求调用它们。

例如：

查天气
查订单
发邮件
写数据库
调用内部 API

这和 RAG 的差别很重要：

RAG 更偏“让模型看到资料”
Tool Calling 更偏“让模型执行动作”

一个具体例子

你问：

“帮我查一下张三这周的工单数量。”

如果系统有一个 get_ticket_count(user, range) 工具，模型就可以先发起工具调用，再根据结果回复你。

截至 2026 年，OpenAI 官方文档仍把 function calling 明确定位为模型连接外部数据与动作能力的核心机制之一。

九、Workflow：把多个步骤编排成流程

单次调用模型，解决的是一个点；Workflow（工作流） 解决的是一串步骤。

比如一个“生成周报”的 AI 工作流，可能包含：

读取本周项目记录
汇总代码提交
拉取工单状态
生成摘要
输出为 Markdown 或邮件

这里真正重要的不是某一步模型多聪明，而是整个流程是否稳定、可控、可复用。

所以当一个团队从“试试玩 AI”走向“把 AI 用进业务”，通常都会从 Prompt 走向 Workflow。

十、Agent：能围绕目标持续行动的系统

这是近两年最热门、也最容易被说虚的词之一。

Agent（智能体） 不是指“一个厉害的模型”，而是指：

一个能围绕目标，结合上下文、工具、规则和流程，持续完成任务的系统。

它通常具备几种能力：

理解目标
选择步骤
调用工具
根据中间结果继续决策
在必要时切换策略或请求补充信息

一个简单判断标准

如果一个系统只是“你问一句，它答一句”，那更像 chatbot。

如果它可以：

先查资料
再调用工具
再做判断
再执行下一步

那它就更接近 agent。

截至 2026 年，OpenAI 官方对 agent 的描述也强调它是一个会结合 tools、guardrails、knowledge、logic 来完成任务的系统，而不只是一次模型调用。

十一、Memory：让系统别每次都“重新认识你”

Memory（记忆） 指的是系统跨轮次、跨任务保存和使用信息的能力。

它大概可以分成两类：

1. 短期记忆

比如当前会话里刚刚聊过什么、这轮任务的中间结果是什么。

2. 长期记忆

比如：

你偏好的输出格式
某个客户的长期背景
项目的一贯约束
某个任务历史

Memory 和 RAG 很像，但不完全一样：

RAG 主要是“从资料库里找相关信息”
Memory 更强调“系统持续记住与你相关的信息”

很多产品会把两者结合起来用。

十二、Guardrails：给 AI 设护栏，而不是只靠“它自觉”

Guardrails（护栏） 是指一切用来限制、校验、修正 AI 行为的机制。

比如：

检查是否泄露敏感信息
检查是否跑题
检查输出格式是否合规
检查工具调用是否越权
在关键写操作前要求人工确认

Guardrails 的关键思想是：

不要把安全、合规、稳定性全部寄托在模型自己“懂事”。

截至 2026 年，主流 agent 平台都已经把 guardrails 当作一等公民能力来对待，因为只要 AI 开始接工具、接真实业务，护栏就不再是“可选项”，而是基础设施。

十三、Skill：把一套做事方法封装起来

Skill（技能） 这个词没有 MCP 那样统一的标准定义，不同产品里含义会略有区别，但大体都指一件事：

把一类可复用的能力、规则或工作方法封装起来。

它可能表现为：

一段结构化指令
一个专门处理某类任务的能力包
一个组合了工具、提示词和流程的“小模块”

举个直观例子

如果你经常让 AI 做代码审查，可以把下面这些东西打包成一个 skill：

审查重点
风险优先级标准
输出格式模板
需要调用的代码搜索工具

这样下次再做类似任务，不用从零再教一遍。

所以你可以把 skill 理解成：

可复用的做事套路。

十四、Plugin、Connector、App：这些词为什么总让人混？

这一组词最容易让人误会，因为它们看上去都像“给 AI 加能力的东西”，但实际上层级并不完全一样。

先说最重要的一句：

Plugin、Connector、App 往往是产品层的命名；MCP 更像协议层的命名。

1. Plugin（插件）

Plugin（插件） 通常指某个平台里的可安装扩展单元。

它不是一个全行业完全统一的协议词，而更像一种产品封装方式。不同平台里的 plugin 可能包含：

工具定义
配置
授权方式
UI 能力
指令或工作流
和外部服务的连接方式

也就是说，plugin 更接近“把某种能力打包给用户安装和使用”。

2. Connector（连接器）

截至 2026 年 5 月 19 日，OpenAI 官方文档对 connectors 的表述已经非常明确：

Connectors 是 OpenAI 维护的 MCP 封装层
主要面向像 Google Workspace、Dropbox 这类常见服务

这意味着 connector 不是和 MCP 对立的概念，反而通常可以理解成：

官方帮你预先包装好的 MCP 集成。

3. App（应用）

在 ChatGPT 的 Apps SDK 语境下，app 是更贴近终端用户的交付单位。

OpenAI 官方文档说明，Apps SDK 构建的 app 使用 MCP 与 ChatGPT 连接；一个 app 至少需要：

一个 MCP server 来暴露能力
可选的前端 UI 组件，用于在 ChatGPT 中展示界面

所以你可以把 app 理解成：

给用户安装或连接的一整个产品体验；MCP server 则是它背后的能力底座。

4. 它们和 Tool / Skill 的区别

很多人最容易混的是这里：

Tool：一个具体可调用能力，比如“查订单”
Skill：一套可复用的方法或套路，比如“按某种格式做代码审查”
Plugin / App：把一组能力打包成用户可以启用的扩展形态
Connector：官方预置的某类服务连接层

换句话说：

Tool 更像单个动作，Skill 更像做事方法，Plugin / App 更像交付容器，Connector 更像标准化好的接线器。

十五、MCP Server：它和 Plugin 到底什么关系？

补完 plugin 之后，还必须把 MCP Server 单独拎出来讲，不然还是容易混。

MCP Server 是按 MCP 协议暴露能力的服务端实现。它可以向 AI Host 暴露：

Tools
Resources
Prompts

一个 plugin 不一定等于一个 MCP server，但在很多现代 AI 产品里，plugin 往往会：

直接内置一个 MCP server
或者依赖一个远程 MCP server
或者把 MCP server 再包装成更适合产品分发的形态

你可以把两者关系理解成：

MCP Server：技术能力提供者
Plugin / App：产品交付外壳

这两者不是互斥关系，经常是上下层关系。

十六、MCP：让工具、资源和提示模板按统一协议接进来

如果说 Tool Calling 解决的是“模型怎么调一个工具”，那 MCP（Model Context Protocol） 解决的是更上一层的问题：

不同 AI 应用，怎么用统一方式连接外部工具、资源和提示模板。

它不是某一个工具，也不是某一个模型，而是一套标准协议。

截至 2026 年 5 月 19 日，MCP 官方文档标注的当前协议版本仍是 2025-11-25。

MCP 主要解决什么问题？

过去如果你要让多个 AI 客户端都接 GitHub、文档库、数据库、CMS，通常得每个客户端各写一套集成。

而 MCP 的思路是：

外部系统按统一协议暴露能力
AI Host 通过 MCP Client 去连接这些能力
不同客户端可以复用这些 Server

它能承载什么？

按照官方规范，MCP 不只是工具调用，还包括：

Tools：执行动作
Resources：提供上下文
Prompts：提供可复用提示模板

所以它更像是 AI 应用和外部世界之间的一层“标准连接层”。

十七、这些概念之间到底是什么关系？

你可以用下面这张脑图来记：

Model 负责生成和推理
Prompt 决定模型怎么工作
Token / Context Window 决定一次能处理多少信息
Embedding 把内容变成可语义比较的向量
Vector Store 存这些向量化后的知识片段
RAG 负责先检索、再生成
Tool Calling 负责让模型执行外部动作
Workflow 负责把多个步骤编排起来
Agent 负责围绕目标持续行动
Memory 负责跨轮次保存可复用信息
Guardrails 负责限制风险
Skill 负责复用一套做事套路
MCP Server 负责按协议提供能力
MCP 负责把工具、资源、提示模板标准化接入
Connector 负责把常见外部服务更方便地接进来
Plugin / App 负责把这些能力包装成用户可启用的扩展体验

如果再压缩成一句话：

Agent 是“会干活的整体系统”，RAG / Tools / Memory / Guardrails / MCP 是它常见的能力部件，Plugin / Connector / App 则更接近这些能力被交付给用户的方式。

十八、普通团队最该先学哪些？

如果你是刚开始做 AI 应用，不需要一上来把所有词都啃透。一个更现实的学习顺序通常是：

Prompt：先学会把任务说清楚
Tools / Function Calling：让 AI 真能接业务动作
RAG：让 AI 能看你的资料
Workflow：让 AI 从“单点回答”变成“可执行流程”
Guardrails：开始接真实数据后必须补上
Agent：当任务开始变复杂时再系统化设计
MCP：当你需要标准化接多个系统、复用多客户端时重点投入
Plugin / Connector / App：当你要把能力正式交付给用户时重点理解
Skill / Memory：当你希望长期复用经验与个性化能力时再做深

这个顺序不一定适合所有团队，但对大多数业务落地来说，已经够实用了。

写在最后

AI 领域的概念很多，最容易掉进去的坑就是：

要么把每个词都神化
要么把所有词都混成一团

更好的办法是把它们当成一套工程积木来看。

你不需要迷信某个名词，也不需要追求“我一定要做一个 agent”。真正有价值的问题其实是：

我需要让模型知道什么？
我需要让模型做什么？
我需要它安全到什么程度？
我需要它复用到什么程度？
我需要它以什么形态交付给用户？

当你开始从这些问题出发，再回头看 Prompt、RAG、Agent、Plugin、Skill、MCP，这些词就不会再只是术语，而会变成你搭建 AI 应用时真正能用上的工具箱。

注：本文基于截至 2026 年 5 月 19 日可查的官方资料整理。其中特别参考了 MCP 官方 versioning 与 specification 页面，以及 OpenAI 关于 agents、function calling、file search / vector stores、MCP and Connectors、Apps SDK 的官方文档。不同平台对 plugin、skill、memory、agent 的具体产品定义可能略有差异，实际使用时请以具体平台文档为准。