AI基础词汇知识

创建 2026-05-16 更新 2026-05-16

这篇文章不是一份严格的 AI 百科词典，而是一张给新手看的 AI 世界地图。

AI 相关名词最容易让人困惑的地方，不是单个词难懂，而是它们会同时出现：LLM、Token、Context、Prompt、RAG、Tool、MCP、Agent、Agent Skill。真正要理解的是它们之间的分工。

先记住一句话

LLM 是核心生成引擎，Token 是模型处理文本的基本单位，Context 是模型这次能看到的信息，Prompt 是任务说明，RAG 负责补知识，Tool 和 MCP 负责连接外部世界，Agent 负责规划和执行，Agent Skill 则把高频流程沉淀成可复用说明书。

一、先看全局：AI 应用到底由什么组成？

如果把一个 AI 应用拆开看，大概有四层：

模型层：LLM、Tokenizer、Token、Context Window，决定模型如何理解和生成。
对话层：Prompt、System Prompt、Temperature、推理方式，决定你如何把任务交给模型。
知识层：Embedding、向量数据库、Chunk、RAG，解决模型不知道、记不住、需要引用的问题。
行动层：Tool Calling、MCP、Agent、Agent Skill，让模型从“会回答”走向“能做事”。

这四层不是彼此替代，而是互相配合。一个真实产品里，常常是 Prompt 负责表达任务，RAG 负责补充资料，Agent 负责决定步骤，Tool 和 MCP 负责执行外部动作，最后由 LLM 把结果组织成人能读懂的答案。

本文把重点词分成三档：核心表示建议最先掌握，重点表示 AI 应用开发里高频出现，进阶表示后续深入训练、优化或工程化时再重点看。

二、模型基础：从 AI 到 LLM

AI 核心

AI，全称 Artificial Intelligence，中文叫人工智能。它不是某一种具体技术，而是一大类让机器表现出智能行为的方法，比如识别图片、理解语言、推荐内容、规划路线、生成代码。

今天很多人口中的 AI，通常特指以大模型为核心的新一代 AI 应用。

机器学习进阶

机器学习是实现 AI 的一种方法。传统程序是人写规则，机器学习则是让模型从大量数据里学规律。

例如垃圾邮件识别：不用手写所有垃圾邮件规则，而是给模型看很多“垃圾邮件 / 正常邮件”样本，让它自己学会区分。

深度学习进阶

深度学习是机器学习的一类方法，核心是使用多层神经网络处理复杂模式。图像识别、语音识别、机器翻译、大语言模型，都离不开深度学习。

这里的“深度”主要指网络层数多、参数多、能表达更复杂的关系。

神经网络进阶

神经网络可以理解为一套由可调参数组成的函数。输入一段文字、一张图片或一段声音，网络经过多层计算后，输出分类、预测或生成结果。

训练模型，本质上就是不断调整这些参数，让模型在目标任务上表现更好。

Transformer 重点

Transformer 注意力机制示意图

Transformer 是现代大语言模型的核心架构。它最重要的机制叫 Attention，也就是注意力机制。

注意力机制让模型在处理一句话时，能够判断哪些词更重要、哪些词之间关系更强。比如理解“它”指代谁，或者判断一句话里真正的重点在哪里。

LLM 核心

LLM 核心生成引擎示意图

LLM，全称 Large Language Model，中文叫大语言模型。它通过大量文本、代码和其他数据训练，学会理解、续写、总结、翻译、问答、写代码等能力。

从工程视角看，LLM 最朴素的生成方式是：根据当前输入预测下一个最可能出现的 Token。生成一个 Token 后，模型会把它追加回当前上下文，再继续预测下一个 Token，直到遇到停止条件。

所以你看到大模型回答时经常是流式出现的：它不是先在背后写好完整文章再一次性发出来，而是在持续补全下一个片段。

常见的 ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi，本质上都是围绕 LLM 或多模态大模型构建的模型系列和产品。

参数重点

参数训练示意图

参数是模型内部可学习的数字。模型训练时会不断调整这些数字，让输出越来越接近目标。

参数越多通常意味着模型容量越大，但不等于一定更聪明。数据质量、训练方法、推理设计、产品工程同样重要。

Token 核心

Token 是模型处理文本的基本单位。它不一定等于一个汉字、一个英文单词或一个标点，而是模型分词后得到的片段。

你输入的问题、系统提示词、历史对话、工具结果、参考资料、模型输出，最后都会以 Token 的形式进入模型上下文。很多模型 API 的计费、上下文限制和输出长度，也都按 Token 计算。

Tokenizer 心智模型

Tokenizer 核心

Tokenizer 是模型的分词器，负责在“人类可读文字”和“模型可处理的 Token ID”之间转换。

它主要做两件事：

编码：把文字切分成 Token，并映射成 Token ID。
解码：把模型输出的 Token ID 再映射回文字。

Token 不等于词。例如“程序员”可能被拆成“程序”和“员”；英文单词 helpful 也可能被拆成 help 和 ful；某些特殊字符甚至可能需要多个 Token 表示。

Context 核心

Context 是模型本次请求能看到的全部信息，也就是上下文。它通常包括用户当前输入、历史对话、System Prompt、可用工具列表、工具调用结果、检索出来的参考资料，以及模型已经生成但还在继续补全的内容。

我们和模型聊天时，会感觉它“记得”前面说过的话。严格说，这通常不是模型本体拥有持续记忆，而是平台在每次请求时把相关历史重新放进 Context 里。

Context Window 像一个容量有限的工作台

Context Window 核心

Context Window，也就是上下文窗口，表示模型一次最多能看见多少 Token。

窗口越大，模型一次能处理的材料越多，比如长文档、多轮对话、大段代码。但窗口不是越满越好。塞太多无关内容，既增加成本，也会干扰模型抓重点。

这也是 RAG 技术有价值的原因：面对一本很长的产品手册，不必把整本书塞给模型，而是先检索出和用户问题最相关的片段，再交给模型生成答案。

三、和模型对话：Prompt 与生成

Prompt 核心

Prompt 任务说明示意图

Prompt 就是给模型的输入和任务说明。它可以是一句话，也可以是一整套任务描述。

Prompt 不需要被神化。它的本质就是把任务说清楚。模糊的 Prompt 会带来不稳定结果，清晰的 Prompt 会让模型更容易理解你的预期。

例如：

模糊：帮我写一首诗。
清晰：请帮我写一首五言绝句，主题是秋天的落叶，风格要悲凉一点。

好的 Prompt 通常会包含：任务目标、背景信息、约束条件、输出格式、示例。

User Prompt 核心

User Prompt 是用户直接输入的问题或任务，比如“帮我总结这篇文章”“解释这段代码为什么报错”。

它代表用户当前想完成什么。

System Prompt 核心

System Prompt 规则层示意图

System Prompt 是系统级提示词，通常由开发者在后台配置，用来规定模型的身份、边界和回答风格。

例如“你是一个耐心的数学老师，不要直接给答案，要引导学生思考”；学生输入的“3 加 5 等于几”就是 User Prompt。模型最终会综合这两类提示词：既完成用户任务，又遵守系统规则。

Zero-shot 重点

Zero-shot 示意图

Zero-shot 指不给示例，直接让模型完成任务。

比如：“把下面这段话翻译成英文。”如果模型直接完成了，这就是 Zero-shot。

Few-shot 重点

Few-shot 示意图

Few-shot 指在 Prompt 里给几个示例，让模型模仿示例的格式或思路。

例如先给两组“原文 -> 改写结果”，再让模型改写第三段。它适合格式要求强、风格要求细的任务。

Temperature 进阶

Temperature 可以理解为模型回答的随机程度。温度低，回答更稳定、更保守；温度高，回答更发散、更有创造性。

写代码、做事实问答通常适合较低温度；写广告文案、头脑风暴可以适当提高温度。

幻觉重点

幻觉与校验示意图

幻觉指模型生成了看似合理、实际错误或不存在的内容。比如编造论文、编造 API、错误解释事实。

幻觉的根源之一是：大模型本质上是在生成最可能的文本，而不是天然连接真实世界数据库。RAG、工具调用、引用校验，都可以降低幻觉风险。

推理 Reasoning 重点

推理步骤示意图

推理是模型把问题拆开、逐步分析、得出结论的能力。数学题、代码调试、复杂规划，都依赖推理。

现在很多模型会区分普通模型和推理模型。推理模型通常响应更慢、成本更高，但在复杂任务上更稳。

Chain of Thought 进阶

Chain of Thought 常译为思维链，指让模型按步骤思考。它能提升复杂问题的准确率，但不等于模型所有内部思考都应该展示给用户。

在产品里，更常见的做法是让模型输出简洁结论，同时保留必要的解释步骤。

四、让模型知道更多：Embedding 与 RAG

Embedding 重点

Embedding 向量示意图

Embedding 是把文字、图片、音频等内容转换成一串数字向量的方法。向量可以表示语义位置：意思相近的内容，向量距离通常也更近。

例如“年假怎么休”和“带薪休假规则”字面不同，但语义相近。Embedding 可以帮助系统把它们匹配起来。

向量数据库重点

向量数据库检索示意图

向量数据库专门用来存储和检索向量。普通数据库擅长精确查询，比如用户 ID 等于 1001；向量数据库擅长相似度查询，比如“找出最像这个问题的 5 段文档”。

RAG 系统里，向量数据库经常用来存公司文档、产品手册、知识库、FAQ。

Chunk 重点

Chunk 文档切分示意图

Chunk 指把长文档切成小块。因为模型和向量检索都不适合直接处理一整本手册，所以通常会把文档切成段落级、章节级的小片段。

Chunk 太短会丢上下文，太长会影响检索精度。好的切分策略会保留标题、层级和必要的上下文。

相似度检索重点

相似度检索是根据向量距离查找相关内容。用户问一个问题，系统先把问题变成向量，再去向量数据库里找最接近的文档块。

它解决的是“模型应该参考哪几段资料”的问题。

RAG 重点

RAG 流程示意图

RAG，全称 Retrieval-Augmented Generation，中文常译为检索增强生成。

它的核心流程是：先检索，再生成。模型回答问题前，系统会先从外部知识库里找相关资料，然后把这些资料和用户问题一起交给模型。

RAG 适合解决三类问题：

模型不知道的私有知识；
模型训练后才出现的新信息；
需要引用来源或减少编造的问答。

Re-ranking 进阶

Re-ranking 是对初步检索结果重新排序。向量检索先粗略找出一批相关内容，再用更精细的模型判断哪些内容最值得放进上下文。

它可以提升 RAG 的准确率，避免把看似相关但实际没用的资料塞给模型。

五、让模型做事情：Tool、MCP、Agent 与 Skill

Tool 重点

Tool 外部函数示意图

大模型只靠自身参数，并不能天然知道实时天气、当前股票价格、你本地文件里的内容，也不能直接访问数据库或网页。

Tool 可以理解为模型可用的外部函数：输入参数，执行操作，返回结果。比如一个天气工具可能接收 city 和 date，返回天气、温度、风力等信息。

工具调用中的角色分工

Tool Calling 重点

Tool Calling 是让模型调用外部工具的能力。这里最容易误解的一点是：真正调用工具的不是模型本体，而是平台代码。

模型会根据用户问题和工具列表，生成“我想调用哪个工具、传什么参数”的结构化请求；平台接收这条请求后，真正执行函数调用；工具返回结果后，平台再把结果交回模型；模型最后把工具结果整理成人类可读的答案。

所以 Tool 的本质，是给大模型提供外部能力，让它能够感知和影响外部环境。

Function Calling 重点

Function Calling 示意图

Function Calling 是 Tool Calling 的一种常见形式。开发者提前定义函数名称、参数格式和说明，模型根据用户请求决定是否调用。

它让模型输出更可控，不再只是生成自然语言，而是可以生成结构化动作。

MCP 重点

MCP 协议示意图

MCP，全称 Model Context Protocol，中文可以理解为模型上下文协议。它本质上是一套统一的工具和数据源接入标准。

如果没有 MCP，每个 AI 应用都要为文件系统、数据库、浏览器、GitHub、Slack 等工具单独写适配逻辑。MCP 的价值在于：让工具以统一方式暴露给模型客户端，让模型客户端以统一方式发现工具、传递参数、接收结果。

可以用 Type-C 接口类比 MCP：不同设备都采用统一接口后，连接和复用成本就会低很多。

简单说：Tool Calling 是“模型会调用工具”，MCP 是“工具怎么标准化接进模型生态”。

Agent 核心

Agent 执行循环示意图

Agent 可以理解为会行动的 AI。普通聊天模型主要是回答问题；Agent 会先理解目标，再拆步骤、选工具、执行、观察结果，必要时继续下一轮。

如果只是问“今天上海天气怎么样”，模型调用一次天气工具就够了。但现实任务往往更复杂，比如：

今天我这里的天气怎么样？如果下雨，帮我查一下附近有没有卖雨伞的店。

这个任务至少需要多步：获取位置、查询天气、判断是否下雨、查询附近店铺、汇总结果。模型不只是回答一句话，而是在根据目标持续规划下一步、调用工具、观察结果、继续决策，直到任务完成。

这种能够自主规划、自主调用工具，并持续执行直到完成用户目标的系统，就可以称为 Agent。

常见的 Agent 执行模式包括 ReAct、Plan and Execute 等。具体实现不同，但核心思想类似：让模型在“判断现状、选择动作、观察结果、继续推进”的循环中完成复杂任务。

Workflow 重点

Workflow 固定流程示意图

Workflow 是固定流程，Agent 是动态决策。Workflow 更像“按流程图走”，适合稳定、可预测的业务；Agent 更像“根据当前情况决定下一步”，适合开放任务。

很多产品会混合使用：外层用 Workflow 控制关键步骤，局部用 Agent 处理复杂判断。

Human-in-the-loop 重点

Human-in-the-loop 示意图

Human-in-the-loop 指人类参与 AI 流程。它常用于高风险场景，比如审批、发布、付款、删除数据、发送外部邮件。

好的 AI 系统不是所有事都自动做完，而是在关键节点让人确认。

Agent Skill 重点

Agent Skill 可以理解为写给 Agent 的技能说明书。它把某类高频任务的目标、触发条件、执行步骤、判断规则、输出格式和示例，提前沉淀成一份 Markdown 文档。

如果没有 Skill，你每次都要把规则塞进 Prompt 里。例如一个“出门前助手”要记住：下雨带伞、光照强带帽子、空气差带口罩、风大穿外套、始终提醒带手机、输出时先总结再列清单。Skill 的价值就是把这些稳定规则从临时对话里抽出来，让 Agent 在需要时自动加载。

Agent Skill 文档结构

一个典型的 Agent Skill 通常分两层：

元数据层：用 name 和 description 告诉 Agent 技能叫什么、什么时候用。
指令层：写清目标、步骤、规则、输出格式、示例和边界。

例如：

---
name: go-out-checklist
description: 出门前根据天气和位置生成携带物品清单
---

## 目标

根据用户位置和天气情况，提醒用户出门需要携带的物品。

## 执行步骤

1. 调用定位工具获取经纬度。
2. 调用天气工具获取天气信息。
3. 根据天气规则整理物品清单。
4. 按指定格式输出。

## 判断规则

- 下雨：带伞。
- 光照强：带帽子。
- 空气差：带口罩。
- 风大：穿防风外套。
- 始终提醒带手机。

在支持 Skill 的 Agent 工具里，系统通常会先读取技能的名称和描述；只有当用户任务和某个技能相关时，才读取完整指令。这种机制也叫渐进式披露：既能复用复杂规则，又能减少不必要的上下文消耗。

六、模型如何训练和优化

预训练进阶

预训练是模型从海量数据中学习通用能力的阶段。大语言模型会在大量文本、代码和其他数据上学习语言规律、知识和推理模式。

预训练成本很高，通常只有大公司或顶级实验室能承担。

后训练进阶

后训练是在预训练之后，让模型更符合人类需求的阶段。它会让模型更会聊天、更遵守指令、更安全，也更适合具体产品场景。

很多模型能力差异，不只来自预训练，也来自后训练质量。

SFT 进阶

SFT，全称 Supervised Fine-Tuning，中文常译为监督微调。它用高质量的“输入 -> 理想输出”样本训练模型，让模型学会按照人类期望回答。

比如让模型学会写面试题答案、客服回复、代码解释。

RLHF 进阶

RLHF，全称 Reinforcement Learning from Human Feedback，意思是基于人类反馈的强化学习。

它通常会让人类比较多个回答哪个好，再训练奖励模型，引导大模型生成更符合人类偏好的答案。

微调 Fine-tuning 进阶

微调是在已有模型基础上继续训练，让模型适应特定任务或领域。比如法律问答、医学文本、企业客服、代码补全。

微调能改变模型行为，但成本、数据质量和过拟合风险都需要考虑。很多场景用 RAG 就够了，不一定要微调。

LoRA 进阶

LoRA 是一种低成本微调方法。它不直接大规模改动原模型参数，而是训练一小部分额外参数。

好处是成本低、速度快、易于切换，常用于开源模型定制。

蒸馏 Distillation 进阶

蒸馏是让小模型学习大模型能力的方法。大模型像老师，小模型像学生。

目标是用更低成本、更快速度获得接近大模型的效果，常用于端侧部署、低延迟场景。

Benchmark 进阶

Benchmark 是评估模型能力的测试集或排行榜。它可以测试数学、代码、知识、推理、多语言等能力。

但 Benchmark 不是全部。真实产品效果还取决于用户任务、数据质量、提示词、工具链和稳定性。

七、模型如何落地成产品

API 重点

API 调用示意图

API 是应用调用模型的接口。开发者把 Prompt、参数、上下文发给模型服务，模型返回答案。

大多数 AI 应用并不是自己训练模型，而是通过 API 调用已有模型。

推理 Inference 重点

推理运行示意图

推理指模型在使用阶段生成结果。训练是“学会能力”，推理是“实际回答”。

推理成本受模型大小、输出长度、并发量、上下文长度影响。一个 AI 产品能不能规模化，推理成本非常关键。

本地部署重点

本地部署示意图

本地部署指模型运行在自己的电脑、服务器或私有云里，而不是调用外部 API。

它的优点是数据更可控、可离线、可定制；缺点是需要机器资源和运维能力。

开源模型重点

开源模型示意图

开源模型通常指权重或代码可公开获取的模型。常见开源生态包括 Llama、Qwen、DeepSeek、Mistral 等。

开源模型适合研究、私有化部署、定制化开发，但也要注意许可证和商用限制。

闭源模型重点

闭源模型示意图

闭源模型通常通过 API 或官方产品使用，模型权重不公开。它们往往使用方便、能力强、维护省心，但可控性和透明度较低。

企业选型时，常常会在能力、成本、数据安全、可控性之间权衡。

多模态进阶

多模态指模型能处理不止一种信息形式，比如文本、图片、音频、视频。

例如你上传一张截图，让模型解释页面问题；或者上传一段语音，让模型总结会议纪要。这些都是多模态能力。

LLMOps 进阶

LLMOps 是围绕大模型应用的工程化实践，包括 Prompt 管理、模型评估、日志追踪、成本监控、RAG 数据更新、安全审查、线上回归测试等。

当 AI 应用从 Demo 走向生产，LLMOps 就会变得非常重要。

八、几个最常见的组合

生成LLM + Token + Context

LLM 根据上下文持续预测 Token；上下文窗口决定模型本次能看到多少材料。

对话Prompt + System Prompt

Prompt 表达当前任务，System Prompt 规定角色、规则、边界和输出风格。

知识Embedding + 向量数据库 + RAG

Embedding 把内容变成向量，向量数据库负责找相似资料，RAG 把资料交给模型生成答案。

行动Agent + Tool Calling + MCP

Agent 决定下一步，Tool Calling 执行动作，MCP 让工具接入方式更标准。

复用Agent Skill + Markdown 指令

Agent Skill 把固定流程、判断规则和输出格式写成文档，让 Agent 在合适场景复用。

定制微调 + LoRA + 蒸馏

微调用来改变模型行为，LoRA 降低微调成本，蒸馏把大模型能力迁移到小模型。

九、最后速查表

词汇	优先级	一句话解释	常见场景
AI	核心	让机器表现出智能行为的技术总称。	识别、推荐、生成、规划。
LLM	核心	能理解和生成语言的大模型。	聊天、写作、总结、代码。
Token	核心	模型处理文本的基本单位。	计费、上下文长度、输出限制。
Tokenizer	核心	负责文字和 Token ID 之间的编码、解码。	分词、计费估算、上下文分析。
Context	核心	模型本次请求能看到的全部信息。	多轮对话、工具结果、参考资料。
Context Window	核心	Context 最多能容纳的 Token 数量。	长文档、多轮对话、代码分析。
Prompt	核心	给模型的任务说明和输入内容。	提问、写作、生成代码。
User Prompt	核心	用户直接输入的问题或任务。	聊天、问答、操作请求。
System Prompt	核心	开发者配置的角色、规则和边界。	助手人设、安全约束、输出规范。
幻觉	重点	模型生成看似合理但实际错误的内容。	事实问答、引用、专业建议。
Embedding	重点	把内容转换成语义向量。	搜索、推荐、RAG。
向量数据库	重点	存储并检索向量的数据库。	知识库问答、相似文档搜索。
RAG	重点	先检索资料，再让模型生成答案。	企业知识库、客服、文档问答。
Tool	重点	模型可借助的平台外部函数。	查天气、读文件、调用 API。
Tool Calling	重点	模型通过结构化方式请求调用外部工具。	查订单、读数据库、自动化操作。
MCP	重点	统一工具和数据源接入方式的协议。	IDE Agent、文件系统、数据库、浏览器工具。
Agent	核心	能规划步骤并调用工具完成任务的 AI 系统。	代码修复、数据分析、自动化办公。
Agent Skill	重点	写给 Agent 的技能说明文档。	固定流程、个人规则、团队工作流。
微调	进阶	在已有模型基础上继续训练以适配任务。	行业模型、客服模型、风格定制。
LoRA	进阶	低成本微调方法。	开源模型定制、个人模型训练。
多模态	进阶	模型能处理文本、图片、音频、视频等多种输入。	看图问答、语音助手、视频理解。
LLMOps	进阶	大模型应用的工程化运维实践。	评估、监控、成本、安全、回归测试。

怎么继续学

如果只想先抓重点，优先理解这 5 个词：LLM、Token、Context、Prompt、Agent。再往后看 RAG、Tool Calling、MCP、Embedding、Agent Skill、多模态，就能读懂大多数 AI 产品和技术文章。

十、参考资料与引用

马克的技术工作坊视频：《从 LLM 到 Agent Skill，一期视频带你打通底层逻辑！》
Transformer 架构出处：Vaswani 等人的论文 Attention Is All You Need

AI基础词汇知识

一、先看全局：AI 应用到底由什么组成？

二、模型基础：从 AI 到 LLM

AI 核心

机器学习 进阶

深度学习 进阶

神经网络 进阶

Transformer 重点

LLM 核心

参数 重点

Token 核心

Tokenizer 核心

Context 核心

Context Window 核心

三、和模型对话：Prompt 与生成

Prompt 核心

User Prompt 核心

System Prompt 核心

Zero-shot 重点

Few-shot 重点

Temperature 进阶

幻觉 重点

推理 Reasoning 重点

Chain of Thought 进阶

四、让模型知道更多：Embedding 与 RAG

Embedding 重点

向量数据库 重点

Chunk 重点

相似度检索 重点

RAG 重点

Re-ranking 进阶

五、让模型做事情：Tool、MCP、Agent 与 Skill

Tool 重点

Tool Calling 重点

Function Calling 重点

MCP 重点

Agent 核心

Workflow 重点

Human-in-the-loop 重点

Agent Skill 重点

六、模型如何训练和优化

预训练 进阶

后训练 进阶

SFT 进阶

RLHF 进阶

微调 Fine-tuning 进阶

LoRA 进阶

蒸馏 Distillation 进阶

Benchmark 进阶

七、模型如何落地成产品

API 重点

推理 Inference 重点

本地部署 重点

开源模型 重点

闭源模型 重点

多模态 进阶

LLMOps 进阶

八、几个最常见的组合

生成LLM + Token + Context

对话Prompt + System Prompt

知识Embedding + 向量数据库 + RAG

行动Agent + Tool Calling + MCP

复用Agent Skill + Markdown 指令

定制微调 + LoRA + 蒸馏

九、最后速查表

十、参考资料与引用

机器学习进阶

深度学习进阶

神经网络进阶

参数重点

幻觉重点

向量数据库重点

相似度检索重点

预训练进阶

后训练进阶

本地部署重点

开源模型重点

闭源模型重点

多模态进阶