AI基础词汇知识
这篇文章不是一份严格的 AI 百科词典,而是一张给新手看的 AI 世界地图。
AI 相关名词最容易让人困惑的地方,不是单个词难懂,而是它们会同时出现:LLM、Token、Context、Prompt、RAG、Tool、MCP、Agent、Agent Skill。真正要理解的是它们之间的分工。
LLM 是核心生成引擎,Token 是模型处理文本的基本单位,Context 是模型这次能看到的信息,Prompt 是任务说明,RAG 负责补知识,Tool 和 MCP 负责连接外部世界,Agent 负责规划和执行,Agent Skill 则把高频流程沉淀成可复用说明书。
一、先看全局:AI 应用到底由什么组成?
如果把一个 AI 应用拆开看,大概有四层:
- 模型层:LLM、Tokenizer、Token、Context Window,决定模型如何理解和生成。
- 对话层:Prompt、System Prompt、Temperature、推理方式,决定你如何把任务交给模型。
- 知识层:Embedding、向量数据库、Chunk、RAG,解决模型不知道、记不住、需要引用的问题。
- 行动层:Tool Calling、MCP、Agent、Agent Skill,让模型从“会回答”走向“能做事”。
这四层不是彼此替代,而是互相配合。一个真实产品里,常常是 Prompt 负责表达任务,RAG 负责补充资料,Agent 负责决定步骤,Tool 和 MCP 负责执行外部动作,最后由 LLM 把结果组织成人能读懂的答案。
本文把重点词分成三档:核心 表示建议最先掌握,重点 表示 AI 应用开发里高频出现,进阶 表示后续深入训练、优化或工程化时再重点看。
二、模型基础:从 AI 到 LLM
AI 核心
AI,全称 Artificial Intelligence,中文叫人工智能。它不是某一种具体技术,而是一大类让机器表现出智能行为的方法,比如识别图片、理解语言、推荐内容、规划路线、生成代码。
今天很多人口中的 AI,通常特指以大模型为核心的新一代 AI 应用。
机器学习 进阶
机器学习是实现 AI 的一种方法。传统程序是人写规则,机器学习则是让模型从大量数据里学规律。
例如垃圾邮件识别:不用手写所有垃圾邮件规则,而是给模型看很多“垃圾邮件 / 正常邮件”样本,让它自己学会区分。
深度学习 进阶
深度学习是机器学习的一类方法,核心是使用多层神经网络处理复杂模式。图像识别、语音识别、机器翻译、大语言模型,都离不开深度学习。
这里的“深度”主要指网络层数多、参数多、能表达更复杂的关系。
神经网络 进阶
神经网络可以理解为一套由可调参数组成的函数。输入一段文字、一张图片或一段声音,网络经过多层计算后,输出分类、预测或生成结果。
训练模型,本质上就是不断调整这些参数,让模型在目标任务上表现更好。
Transformer 重点
Transformer 是现代大语言模型的核心架构。它最重要的机制叫 Attention,也就是注意力机制。
注意力机制让模型在处理一句话时,能够判断哪些词更重要、哪些词之间关系更强。比如理解“它”指代谁,或者判断一句话里真正的重点在哪里。
LLM 核心
LLM,全称 Large Language Model,中文叫大语言模型。它通过大量文本、代码和其他数据训练,学会理解、续写、总结、翻译、问答、写代码等能力。
从工程视角看,LLM 最朴素的生成方式是:根据当前输入预测下一个最可能出现的 Token。生成一个 Token 后,模型会把它追加回当前上下文,再继续预测下一个 Token,直到遇到停止条件。
所以你看到大模型回答时经常是流式出现的:它不是先在背后写好完整文章再一次性发出来,而是在持续补全下一个片段。
常见的 ChatGPT、Claude、Gemini、DeepSeek、Qwen、Kimi,本质上都是围绕 LLM 或多模态大模型构建的模型系列和产品。
参数 重点
参数是模型内部可学习的数字。模型训练时会不断调整这些数字,让输出越来越接近目标。
参数越多通常意味着模型容量越大,但不等于一定更聪明。数据质量、训练方法、推理设计、产品工程同样重要。
Token 核心
Token 是模型处理文本的基本单位。它不一定等于一个汉字、一个英文单词或一个标点,而是模型分词后得到的片段。
你输入的问题、系统提示词、历史对话、工具结果、参考资料、模型输出,最后都会以 Token 的形式进入模型上下文。很多模型 API 的计费、上下文限制和输出长度,也都按 Token 计算。
Tokenizer 核心
Tokenizer 是模型的分词器,负责在“人类可读文字”和“模型可处理的 Token ID”之间转换。
它主要做两件事:
- 编码:把文字切分成 Token,并映射成 Token ID。
- 解码:把模型输出的 Token ID 再映射回文字。
Token 不等于词。例如“程序员”可能被拆成“程序”和“员”;英文单词 helpful 也可能被拆成 help 和 ful;某些特殊字符甚至可能需要多个 Token 表示。
Context 核心
Context 是模型本次请求能看到的全部信息,也就是上下文。它通常包括用户当前输入、历史对话、System Prompt、可用工具列表、工具调用结果、检索出来的参考资料,以及模型已经生成但还在继续补全的内容。
我们和模型聊天时,会感觉它“记得”前面说过的话。严格说,这通常不是模型本体拥有持续记忆,而是平台在每次请求时把相关历史重新放进 Context 里。
Context Window 核心
Context Window,也就是上下文窗口,表示模型一次最多能看见多少 Token。
窗口越大,模型一次能处理的材料越多,比如长文档、多轮对话、大段代码。但窗口不是越满越好。塞太多无关内容,既增加成本,也会干扰模型抓重点。
这也是 RAG 技术有价值的原因:面对一本很长的产品手册,不必把整本书塞给模型,而是先检索出和用户问题最相关的片段,再交给模型生成答案。
三、和模型对话:Prompt 与生成
Prompt 核心
Prompt 就是给模型的输入和任务说明。它可以是一句话,也可以是一整套任务描述。
Prompt 不需要被神化。它的本质就是把任务说清楚。模糊的 Prompt 会带来不稳定结果,清晰的 Prompt 会让模型更容易理解你的预期。
例如:
- 模糊:帮我写一首诗。
- 清晰:请帮我写一首五言绝句,主题是秋天的落叶,风格要悲凉一点。
好的 Prompt 通常会包含:任务目标、背景信息、约束条件、输出格式、示例。
User Prompt 核心
User Prompt 是用户直接输入的问题或任务,比如“帮我总结这篇文章”“解释这段代码为什么报错”。
它代表用户当前想完成什么。
System Prompt 核心
System Prompt 是系统级提示词,通常由开发者在后台配置,用来规定模型的身份、边界和回答风格。
例如“你是一个耐心的数学老师,不要直接给答案,要引导学生思考”;学生输入的“3 加 5 等于几”就是 User Prompt。模型最终会综合这两类提示词:既完成用户任务,又遵守系统规则。
Zero-shot 重点
Zero-shot 指不给示例,直接让模型完成任务。
比如:“把下面这段话翻译成英文。”如果模型直接完成了,这就是 Zero-shot。
Few-shot 重点
Few-shot 指在 Prompt 里给几个示例,让模型模仿示例的格式或思路。
例如先给两组“原文 -> 改写结果”,再让模型改写第三段。它适合格式要求强、风格要求细的任务。
Temperature 进阶
Temperature 可以理解为模型回答的随机程度。温度低,回答更稳定、更保守;温度高,回答更发散、更有创造性。
写代码、做事实问答通常适合较低温度;写广告文案、头脑风暴可以适当提高温度。
幻觉 重点
幻觉指模型生成了看似合理、实际错误或不存在的内容。比如编造论文、编造 API、错误解释事实。
幻觉的根源之一是:大模型本质上是在生成最可能的文本,而不是天然连接真实世界数据库。RAG、工具调用、引用校验,都可以降低幻觉风险。
推理 Reasoning 重点
推理是模型把问题拆开、逐步分析、得出结论的能力。数学题、代码调试、复杂规划,都依赖推理。
现在很多模型会区分普通模型和推理模型。推理模型通常响应更慢、成本更高,但在复杂任务上更稳。
Chain of Thought 进阶
Chain of Thought 常译为思维链,指让模型按步骤思考。它能提升复杂问题的准确率,但不等于模型所有内部思考都应该展示给用户。
在产品里,更常见的做法是让模型输出简洁结论,同时保留必要的解释步骤。
四、让模型知道更多:Embedding 与 RAG
Embedding 重点
Embedding 是把文字、图片、音频等内容转换成一串数字向量的方法。向量可以表示语义位置:意思相近的内容,向量距离通常也更近。
例如“年假怎么休”和“带薪休假规则”字面不同,但语义相近。Embedding 可以帮助系统把它们匹配起来。
向量数据库 重点
向量数据库专门用来存储和检索向量。普通数据库擅长精确查询,比如用户 ID 等于 1001;向量数据库擅长相似度查询,比如“找出最像这个问题的 5 段文档”。
RAG 系统里,向量数据库经常用来存公司文档、产品手册、知识库、FAQ。
Chunk 重点
Chunk 指把长文档切成小块。因为模型和向量检索都不适合直接处理一整本手册,所以通常会把文档切成段落级、章节级的小片段。
Chunk 太短会丢上下文,太长会影响检索精度。好的切分策略会保留标题、层级和必要的上下文。
相似度检索 重点
相似度检索是根据向量距离查找相关内容。用户问一个问题,系统先把问题变成向量,再去向量数据库里找最接近的文档块。
它解决的是“模型应该参考哪几段资料”的问题。
RAG 重点
RAG,全称 Retrieval-Augmented Generation,中文常译为检索增强生成。
它的核心流程是:先检索,再生成。模型回答问题前,系统会先从外部知识库里找相关资料,然后把这些资料和用户问题一起交给模型。
RAG 适合解决三类问题:
- 模型不知道的私有知识;
- 模型训练后才出现的新信息;
- 需要引用来源或减少编造的问答。
Re-ranking 进阶
Re-ranking 是对初步检索结果重新排序。向量检索先粗略找出一批相关内容,再用更精细的模型判断哪些内容最值得放进上下文。
它可以提升 RAG 的准确率,避免把看似相关但实际没用的资料塞给模型。
五、让模型做事情:Tool、MCP、Agent 与 Skill
Tool 重点
大模型只靠自身参数,并不能天然知道实时天气、当前股票价格、你本地文件里的内容,也不能直接访问数据库或网页。
Tool 可以理解为模型可用的外部函数:输入参数,执行操作,返回结果。比如一个天气工具可能接收 city 和 date,返回天气、温度、风力等信息。
Tool Calling 重点
Tool Calling 是让模型调用外部工具的能力。这里最容易误解的一点是:真正调用工具的不是模型本体,而是平台代码。
模型会根据用户问题和工具列表,生成“我想调用哪个工具、传什么参数”的结构化请求;平台接收这条请求后,真正执行函数调用;工具返回结果后,平台再把结果交回模型;模型最后把工具结果整理成人类可读的答案。
所以 Tool 的本质,是给大模型提供外部能力,让它能够感知和影响外部环境。
Function Calling 重点
Function Calling 是 Tool Calling 的一种常见形式。开发者提前定义函数名称、参数格式和说明,模型根据用户请求决定是否调用。
它让模型输出更可控,不再只是生成自然语言,而是可以生成结构化动作。
MCP 重点
MCP,全称 Model Context Protocol,中文可以理解为模型上下文协议。它本质上是一套统一的工具和数据源接入标准。
如果没有 MCP,每个 AI 应用都要为文件系统、数据库、浏览器、GitHub、Slack 等工具单独写适配逻辑。MCP 的价值在于:让工具以统一方式暴露给模型客户端,让模型客户端以统一方式发现工具、传递参数、接收结果。
可以用 Type-C 接口类比 MCP:不同设备都采用统一接口后,连接和复用成本就会低很多。
简单说:Tool Calling 是“模型会调用工具”,MCP 是“工具怎么标准化接进模型生态”。
Agent 核心
Agent 可以理解为会行动的 AI。普通聊天模型主要是回答问题;Agent 会先理解目标,再拆步骤、选工具、执行、观察结果,必要时继续下一轮。
如果只是问“今天上海天气怎么样”,模型调用一次天气工具就够了。但现实任务往往更复杂,比如:
今天我这里的天气怎么样?如果下雨,帮我查一下附近有没有卖雨伞的店。
这个任务至少需要多步:获取位置、查询天气、判断是否下雨、查询附近店铺、汇总结果。模型不只是回答一句话,而是在根据目标持续规划下一步、调用工具、观察结果、继续决策,直到任务完成。
这种能够自主规划、自主调用工具,并持续执行直到完成用户目标的系统,就可以称为 Agent。
常见的 Agent 执行模式包括 ReAct、Plan and Execute 等。具体实现不同,但核心思想类似:让模型在“判断现状、选择动作、观察结果、继续推进”的循环中完成复杂任务。
Workflow 重点
Workflow 是固定流程,Agent 是动态决策。Workflow 更像“按流程图走”,适合稳定、可预测的业务;Agent 更像“根据当前情况决定下一步”,适合开放任务。
很多产品会混合使用:外层用 Workflow 控制关键步骤,局部用 Agent 处理复杂判断。
Human-in-the-loop 重点
Human-in-the-loop 指人类参与 AI 流程。它常用于高风险场景,比如审批、发布、付款、删除数据、发送外部邮件。
好的 AI 系统不是所有事都自动做完,而是在关键节点让人确认。
Agent Skill 重点
Agent Skill 可以理解为写给 Agent 的技能说明书。它把某类高频任务的目标、触发条件、执行步骤、判断规则、输出格式和示例,提前沉淀成一份 Markdown 文档。
如果没有 Skill,你每次都要把规则塞进 Prompt 里。例如一个“出门前助手”要记住:下雨带伞、光照强带帽子、空气差带口罩、风大穿外套、始终提醒带手机、输出时先总结再列清单。Skill 的价值就是把这些稳定规则从临时对话里抽出来,让 Agent 在需要时自动加载。
一个典型的 Agent Skill 通常分两层:
- 元数据层:用
name和description告诉 Agent 技能叫什么、什么时候用。 - 指令层:写清目标、步骤、规则、输出格式、示例和边界。
例如:
---
name: go-out-checklist
description: 出门前根据天气和位置生成携带物品清单
---
## 目标
根据用户位置和天气情况,提醒用户出门需要携带的物品。
## 执行步骤
1. 调用定位工具获取经纬度。
2. 调用天气工具获取天气信息。
3. 根据天气规则整理物品清单。
4. 按指定格式输出。
## 判断规则
- 下雨:带伞。
- 光照强:带帽子。
- 空气差:带口罩。
- 风大:穿防风外套。
- 始终提醒带手机。
在支持 Skill 的 Agent 工具里,系统通常会先读取技能的名称和描述;只有当用户任务和某个技能相关时,才读取完整指令。这种机制也叫渐进式披露:既能复用复杂规则,又能减少不必要的上下文消耗。
六、模型如何训练和优化
预训练 进阶
预训练是模型从海量数据中学习通用能力的阶段。大语言模型会在大量文本、代码和其他数据上学习语言规律、知识和推理模式。
预训练成本很高,通常只有大公司或顶级实验室能承担。
后训练 进阶
后训练是在预训练之后,让模型更符合人类需求的阶段。它会让模型更会聊天、更遵守指令、更安全,也更适合具体产品场景。
很多模型能力差异,不只来自预训练,也来自后训练质量。
SFT 进阶
SFT,全称 Supervised Fine-Tuning,中文常译为监督微调。它用高质量的“输入 -> 理想输出”样本训练模型,让模型学会按照人类期望回答。
比如让模型学会写面试题答案、客服回复、代码解释。
RLHF 进阶
RLHF,全称 Reinforcement Learning from Human Feedback,意思是基于人类反馈的强化学习。
它通常会让人类比较多个回答哪个好,再训练奖励模型,引导大模型生成更符合人类偏好的答案。
微调 Fine-tuning 进阶
微调是在已有模型基础上继续训练,让模型适应特定任务或领域。比如法律问答、医学文本、企业客服、代码补全。
微调能改变模型行为,但成本、数据质量和过拟合风险都需要考虑。很多场景用 RAG 就够了,不一定要微调。
LoRA 进阶
LoRA 是一种低成本微调方法。它不直接大规模改动原模型参数,而是训练一小部分额外参数。
好处是成本低、速度快、易于切换,常用于开源模型定制。
蒸馏 Distillation 进阶
蒸馏是让小模型学习大模型能力的方法。大模型像老师,小模型像学生。
目标是用更低成本、更快速度获得接近大模型的效果,常用于端侧部署、低延迟场景。
Benchmark 进阶
Benchmark 是评估模型能力的测试集或排行榜。它可以测试数学、代码、知识、推理、多语言等能力。
但 Benchmark 不是全部。真实产品效果还取决于用户任务、数据质量、提示词、工具链和稳定性。
七、模型如何落地成产品
API 重点
API 是应用调用模型的接口。开发者把 Prompt、参数、上下文发给模型服务,模型返回答案。
大多数 AI 应用并不是自己训练模型,而是通过 API 调用已有模型。
推理 Inference 重点
推理指模型在使用阶段生成结果。训练是“学会能力”,推理是“实际回答”。
推理成本受模型大小、输出长度、并发量、上下文长度影响。一个 AI 产品能不能规模化,推理成本非常关键。
本地部署 重点
本地部署指模型运行在自己的电脑、服务器或私有云里,而不是调用外部 API。
它的优点是数据更可控、可离线、可定制;缺点是需要机器资源和运维能力。
开源模型 重点
开源模型通常指权重或代码可公开获取的模型。常见开源生态包括 Llama、Qwen、DeepSeek、Mistral 等。
开源模型适合研究、私有化部署、定制化开发,但也要注意许可证和商用限制。
闭源模型 重点
闭源模型通常通过 API 或官方产品使用,模型权重不公开。它们往往使用方便、能力强、维护省心,但可控性和透明度较低。
企业选型时,常常会在能力、成本、数据安全、可控性之间权衡。
多模态 进阶
多模态指模型能处理不止一种信息形式,比如文本、图片、音频、视频。
例如你上传一张截图,让模型解释页面问题;或者上传一段语音,让模型总结会议纪要。这些都是多模态能力。
LLMOps 进阶
LLMOps 是围绕大模型应用的工程化实践,包括 Prompt 管理、模型评估、日志追踪、成本监控、RAG 数据更新、安全审查、线上回归测试等。
当 AI 应用从 Demo 走向生产,LLMOps 就会变得非常重要。
八、几个最常见的组合
生成LLM + Token + Context
LLM 根据上下文持续预测 Token;上下文窗口决定模型本次能看到多少材料。
对话Prompt + System Prompt
Prompt 表达当前任务,System Prompt 规定角色、规则、边界和输出风格。
知识Embedding + 向量数据库 + RAG
Embedding 把内容变成向量,向量数据库负责找相似资料,RAG 把资料交给模型生成答案。
行动Agent + Tool Calling + MCP
Agent 决定下一步,Tool Calling 执行动作,MCP 让工具接入方式更标准。
复用Agent Skill + Markdown 指令
Agent Skill 把固定流程、判断规则和输出格式写成文档,让 Agent 在合适场景复用。
定制微调 + LoRA + 蒸馏
微调用来改变模型行为,LoRA 降低微调成本,蒸馏把大模型能力迁移到小模型。
九、最后速查表
| 词汇 | 优先级 | 一句话解释 | 常见场景 |
|---|---|---|---|
| AI | 核心 | 让机器表现出智能行为的技术总称。 | 识别、推荐、生成、规划。 |
| LLM | 核心 | 能理解和生成语言的大模型。 | 聊天、写作、总结、代码。 |
| Token | 核心 | 模型处理文本的基本单位。 | 计费、上下文长度、输出限制。 |
| Tokenizer | 核心 | 负责文字和 Token ID 之间的编码、解码。 | 分词、计费估算、上下文分析。 |
| Context | 核心 | 模型本次请求能看到的全部信息。 | 多轮对话、工具结果、参考资料。 |
| Context Window | 核心 | Context 最多能容纳的 Token 数量。 | 长文档、多轮对话、代码分析。 |
| Prompt | 核心 | 给模型的任务说明和输入内容。 | 提问、写作、生成代码。 |
| User Prompt | 核心 | 用户直接输入的问题或任务。 | 聊天、问答、操作请求。 |
| System Prompt | 核心 | 开发者配置的角色、规则和边界。 | 助手人设、安全约束、输出规范。 |
| 幻觉 | 重点 | 模型生成看似合理但实际错误的内容。 | 事实问答、引用、专业建议。 |
| Embedding | 重点 | 把内容转换成语义向量。 | 搜索、推荐、RAG。 |
| 向量数据库 | 重点 | 存储并检索向量的数据库。 | 知识库问答、相似文档搜索。 |
| RAG | 重点 | 先检索资料,再让模型生成答案。 | 企业知识库、客服、文档问答。 |
| Tool | 重点 | 模型可借助的平台外部函数。 | 查天气、读文件、调用 API。 |
| Tool Calling | 重点 | 模型通过结构化方式请求调用外部工具。 | 查订单、读数据库、自动化操作。 |
| MCP | 重点 | 统一工具和数据源接入方式的协议。 | IDE Agent、文件系统、数据库、浏览器工具。 |
| Agent | 核心 | 能规划步骤并调用工具完成任务的 AI 系统。 | 代码修复、数据分析、自动化办公。 |
| Agent Skill | 重点 | 写给 Agent 的技能说明文档。 | 固定流程、个人规则、团队工作流。 |
| 微调 | 进阶 | 在已有模型基础上继续训练以适配任务。 | 行业模型、客服模型、风格定制。 |
| LoRA | 进阶 | 低成本微调方法。 | 开源模型定制、个人模型训练。 |
| 多模态 | 进阶 | 模型能处理文本、图片、音频、视频等多种输入。 | 看图问答、语音助手、视频理解。 |
| LLMOps | 进阶 | 大模型应用的工程化运维实践。 | 评估、监控、成本、安全、回归测试。 |
如果只想先抓重点,优先理解这 5 个词:LLM、Token、Context、Prompt、Agent。再往后看 RAG、Tool Calling、MCP、Embedding、Agent Skill、多模态,就能读懂大多数 AI 产品和技术文章。
十、参考资料与引用
- 马克的技术工作坊视频:《从 LLM 到 Agent Skill,一期视频带你打通底层逻辑!》
- Transformer 架构出处:Vaswani 等人的论文 Attention Is All You Need
评论
使用 GitHub 账号即可参与加载较慢?可 直接前往 GitHub Discussions 查看与参与。