从 LLM 到 Agent Skill:一文打通 AI 底层逻辑

本文整理自 B 站 UP 主 马克的技术工作坊 的视频 《从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!》,并补充了额外的知识点和个人理解。

AI 领域每天都在冒新名词:LLM、Token、Prompt、Agent、Agent Skill……这些词你可能都听过,但你真的能准确说出每个概念的确切含义吗?

本文不讲商业概念,而是从底层工程视角,将这些概念逐一拆解,帮你建立完整的认知框架。


一、LLM(Large Language Model,大语言模型)

是什么

大语言模型,简称大模型。目前绝大多数大模型基于 Google 团队 2017 年提出的 Transformer 架构。

发展简史

时间 里程碑
2017 Google 发表 “Attention is All You Need”,提出 Transformer
2022.11 OpenAI 发布 GPT-3.5 (ChatGPT),首个真正可用的大模型
2023.03 GPT-4 发布,拉高能力天花板
2023-2026 Claude、Gemini、DeepSeek 等百花齐放

核心原理:文字接龙

LLM 的本质就是一个”文字接龙“游戏:

1
2
3
4
5
6
7
用户输入: "马克的视频怎么样?"

模型预测概率最高的下一个词: "特别"

拼接后继续预测: "马克的视频怎么样?特别" → "棒"

重复直到输出结束符 <EOS>

每次只预测一个 Token,然后把它追加到输入,再预测下一个——这就是大模型逐字生成内容的底层原理。

补充知识:Temperature 参数
模型预测下一个 Token 时会计算每个候选词的概率。temperature 参数控制了预测的”随机性”:

  • temperature = 0:始终选概率最高的词,输出最确定
  • temperature = 1:按原始概率分布采样,更有创造力
  • temperature > 1:更随机,可能产生意外的有趣输出

二、Token(令牌)

是什么

Token 是大模型处理文本的最基本单元。大模型只认识数字,不认识文字,因此需要一个中间人——Tokenizer(分词器)

Tokenizer 的工作

1
2
3
4
5
编码过程(文字 → 数字):
"工作坊" → ["工作", "坊"] → [12345, 67890]

解码过程(数字 → 文字):
[12345, 67890] → ["工作", "坊"] → "工作坊"

Token 与词的关系

Token 和”词”并不是一一对应的:

情况 示例
一个词 = 一个 Token hello[hello]
一个词 = 多个 Token 工作坊[工作] [坊]
一个字符 = 多个 Token [â] [ś] [ij]

换算比例

经验法则: 1 Token ≈ 0.75 个英文单词 ≈ 1.5 ~ 2 个汉字

这个比例在估算 API 成本和 Context Window 用量时非常有用。


三、Context(上下文)

是什么

Context 是大模型每次处理任务时接收到的信息总和,可以理解为大模型的”临时记忆体“。

它包含的内容远比你想象的多:

1
2
3
4
5
6
Context = System Prompt     (系统设定)
+ 对话历史 (多轮对话记录)
+ User Prompt (当前用户输入)
+ 工具列表 (可调用的 Tool 定义)
+ 工具返回结果 (Tool 执行后的数据)
+ 正在生成的 Token (模型已输出的部分)

Context Window(上下文窗口)

Context Window 代表 Context 能容纳的最大 Token 数量,就像一个有固定大小的”滑动窗口”。

模型 Context Window
GPT-4 (初版) 8K / 32K
Claude 3.5 Sonnet 200K
Gemini 1.5 Pro 1M
GPT-4o 128K
Claude Opus 4 200K

补充知识:RAG(Retrieval Augmented Generation)

当文档超出 Context Window 时怎么办?这就需要 RAG 技术:

  1. 将长文档切分成小块(Chunk)
  2. 将每个块转为向量存入向量数据库
  3. 用户提问时,先检索最相关的块
  4. 只把相关的块塞入 Context,而不是整个文档

这样既控制了成本,又保证了回答的相关性。


四、Prompt(提示词)

是什么

Prompt 是给大模型的具体问题或指令。好的 Prompt 能显著提升输出质量。

两种 Prompt

类型 设置者 作用 示例
System Prompt 开发者 定义模型人设和规则 “你是一个耐心的数学老师,不要直接给答案”
User Prompt 用户 具体的任务指令 “3 加 5 等于几?”

模型会结合两者来生成回答。System Prompt 像是”教师手册”,User Prompt 是”学生的提问”。

Prompt Engineering(提示词工程)

研究如何写出清晰、具体、明确的 Prompt,以获得更好输出的学科。核心原则:

  1. 明确角色:告诉模型它是谁
  2. 具体任务:说清楚要做什么
  3. 格式要求:指定输出格式
  4. 提供示例:给 Few-shot 例子
  5. 设置约束:限定回答范围

补充知识:常见 Prompt 技巧

  • Chain of Thought (CoT):让模型”一步一步思考”
  • Few-Shot:提供几个输入→输出示例
  • Tree of Thoughts:让模型探索多条推理路径
  • Self-Consistency:多次生成取投票结果

五、Tool(工具)

是什么

Tool 本质是一个函数,用于让大模型感知和影响外部环境

大模型本身只会”文字接龙”,不知道今天天气、不能发邮件、不能查数据库——但通过 Tool,它可以做到这些。

调用流程

一次完整的 Tool 调用涉及四个角色:用户、平台、大模型、工具

1
2
3
4
5
6
7
8
用户 → 平台:今天北京天气怎么样?
平台 → 大模型:[用户问题 + 可用工具列表]
大模型 → 平台:我需要调用 get_weather(city="北京")
平台 → 工具:执行 get_weather("北京")
工具 → 平台:{"temp": "22℃", "condition": "晴"}
平台 → 大模型:[工具返回结果]
大模型 → 平台:北京今天晴天,气温 22℃,适合出行!
平台 → 用户:北京今天晴天,气温 22℃,适合出行!

关键点: 大模型自己不执行工具,它只是告诉平台”我要调用什么”,由平台来实际执行。

补充知识:Function Calling

Tool 的技术实现叫 Function Calling。开发者需要:

  1. 用 JSON Schema 定义工具的名称、参数、描述
  2. 把工具列表放入 Context
  3. 模型会在需要时输出特定格式的调用指令
  4. 应用层解析指令并执行对应函数

六、MCP(Model Context Protocol,模型上下文协议)

是什么

MCP 是一套统一的工具接入标准,由 Anthropic 于 2024 年底发布。

解决什么问题

在 MCP 之前,每个 AI 平台(ChatGPT、Claude、Cursor……)的工具接入方式各不相同,开发者要为每个平台单独适配。

1
2
3
4
5
6
7
8
9
MCP 之前:
工具A → 适配 ChatGPT 格式 → ChatGPT
工具A → 适配 Claude 格式 → Claude
工具A → 适配 Cursor 格式 → Cursor
(每个平台都要写一次适配)

MCP 之后:
工具A → MCP 标准格式 → 任何支持 MCP 的平台
(写一次,到处用)

类比理解

MCP 就像手机的 Type-C 接口

  • Type-C 之前:每个厂商用不同的充电口
  • Type-C 之后:一根线走天下

MCP 对 AI 工具的意义,就像 Type-C 对充电的意义——统一标准,降低接入成本

补充知识:MCP 架构

MCP 采用 Client-Server 架构:

  • MCP Server:工具提供方,暴露工具能力
  • MCP Client:AI 平台方,集成在 IDE/Chat 中
  • 传输层:支持 stdio、HTTP SSE 等多种方式

目前 Cursor、Claude Code、CodeBuddy 等主流 AI 开发工具都已支持 MCP。


七、Agent(智能体)

是什么

Agent 是能够自主规划、自主调用工具直至完成用户任务的系统。

与简单 Tool 调用的区别

简单 Tool 调用是”一问一答”,而 Agent 是连续思考、分步决策

1
2
3
4
5
6
7
8
9
简单 Tool 调用:
用户:北京天气? → 调用天气工具 → 返回结果(结束)

Agent 模式:
用户:我要出门,帮我准备一下。
→ 思考:需要知道位置 → 调用定位工具 → 得到"北京"
→ 思考:需要查天气 → 调用天气工具 → 得到"下雨"
→ 思考:下雨需要伞 → 调用搜索工具 → 找到附近雨伞店
→ 综合信息 → 输出完整建议

核心特征

  1. 自主规划:根据目标自行制定执行计划
  2. 工具调用:按需使用可用的 Tool
  3. 循环决策:观察结果 → 思考下一步 → 执行 → 再观察
  4. 目标导向:持续执行直到任务完成

补充知识:常见 Agent 架构模式

模式 特点
ReAct Reasoning + Acting,思考和行动交替进行
Plan and Execute 先制定完整计划,再逐步执行
Reflection 执行后自我反思,改进下一轮
Multi-Agent 多个 Agent 协作,各司其职

八、Agent Skill(智能体技能)

是什么

Agent Skill 是提前写好并塞给 Agent 的一份说明文档(通常是 Markdown 格式),用于规定做事的步骤、规则和格式。

可以理解为 Agent 的”工作手册“或”SOP(标准操作流程)“。

为什么需要 Skill

没有 Skill 有 Skill
每次都要写冗长的 Prompt 一次编写,重复使用
输出格式不稳定 严格按规定格式输出
执行流程不可控 按预定步骤执行
难以分享给他人 可以分享和复用

Skill 文件结构

一个典型的 Agent Skill 包含两层:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# 元数据层
---
name: 出门清单助手
description: 根据天气生成出门物品清单
---

# 指令层

## 目标
根据用户所在位置的天气情况,生成出门携带物品清单。

## 执行步骤
1. 调用定位工具获取用户位置
2. 调用天气工具获取天气信息
3. 根据以下规则生成清单:
- 下雨 → 带伞
- 温度 < 10℃ → 带外套
- 紫外线强 → 带防晒
- 大风 → 带口罩

## 输出格式
📍 位置:{城市}
🌤 天气:{天气状况}
📋 出门清单:
- [ ] 物品1
- [ ] 物品2

实际使用效果

用户只需说”出门带什么“,Agent 就会:

  1. 自动加载这个 Skill
  2. 按文档定义的流程调用工具
  3. 按规定格式输出结果

九、完整知识体系串联

把所有概念串起来,就是 AI 从”文字接龙”进化到”自主智能体”的完整路径:

AI 概念层级:从 LLM 到 Agent Skill

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
LLM(大语言模型)
│ 处理的最小单位是

Token(令牌)
│ 所有信息组成

Context(上下文)
│ 通过什么指导模型

Prompt(提示词)
│ 让模型能力延伸到外部

Tool(工具)
│ 用统一标准接入

MCP(模型上下文协议)
│ 自主规划 + 调用工具

Agent(智能体)
│ 沉淀为可复用的经验

Agent Skill(智能体技能)

演进本质

阶段 能力 类比
LLM 单轮文字生成 会说话的大脑
+ Context 多轮记忆 有短期记忆的大脑
+ Tool 感知和影响外部世界 有手有脚
+ MCP 标准化接入任何工具 万能适配器
+ Agent 自主规划和决策 有独立思考能力的员工
+ Skill 可复用的经验文档 带着 SOP 上岗的熟练员工

十、写在最后

理解了从 LLM 到 Agent Skill 的完整演进路径,你就能看清当前所有 AI 产品的本质:

  • ChatGPT / Claude:LLM + Context + Prompt
  • Cursor / CodeBuddy:LLM + Context + Tool + MCP + Agent
  • Claude Code / Devin:LLM + Context + Tool + MCP + Agent + Skill

未来不管 AI 产品怎么变,核心思想不变:模型生成、工具执行、协议连接、Agent 组织、Skill 沉淀

掌握了底层逻辑,你就不会被层出不穷的新名词搞迷糊,而是一眼看穿它们的本质。


参考资料