你只要在 AI 圈待过一段时间,一定听过一堆缩写和怪词。这份就是速查单 — 30 个词,每个一两句、不绕学术。书签起来,下次开会听到忘记是什么直接翻。
模型与架构
-
LLM(Large Language Model) — 用海量文字训练、预测下一个 token 的统计模型。ChatGPT、Claude、Gemini 都是 LLM。输出就是一个 token 接一个 token 的高速 autocomplete。
-
Token — LLM 真正看到的单位。英文约 0.75 词一个 token,中文 1-2 个 token 一个字。计价跟 context 的单位。
-
Context window — 每次请求模型能处理的最大 token 数。Claude 200K、Gemini 1M+。包含 prompt + 历史 + 预留输出。
-
参数(parameters) — 模型内部的数字。「7B」= 70 亿参数。通常越多越强但更慢更贵。
-
预训练(pre-training) — 一开始用网络文字海量训练。产出 base model,知道很多事但不会听指令。
-
后训练(post-training,RLHF、DPO) — 用人类反馈把 base model 调成有用、无害、诚实。ChatGPT 这个产品就从这里来。
-
多模态(multimodal) — 模型原生处理文字、图片、音频、有时视频。2026 年大部分前沿模型默认都多模态。
-
Reasoning model — 训练过程让模型在回答前多花算力「思考」。o3、DeepSeek R1、Claude extended thinking。数学/code 强、慢、贵。
-
MoE(Mixture of Experts) — 每次查询只激活一部分参数的架构。让 200B 模型跑得跟 30B 一样快。Mixtral、DeepSeek V3 采用。
-
Open weights — 训练好的权重可以下载自己跑的模型。Llama、Qwen、DeepSeek、Mistral。常被宽松称「open source」。
跟模型交互
-
Prompt — 你送进 LLM 的任何文字。Prompt 写得好 → 答案好。
-
System prompt — 产品设定、框住每段对话的 prompt。塑造语气和规则。
-
Temperature — 采样的随机性。0 = 确定性;1 = 有创意。Production app 多半 0.0-0.7。
-
Top-p / top-k — 其他采样控制。Top-p 把候选限制在累积概率为 p 的最可能 token。
-
Streaming — 边生 token 边输出,而不是等全部生完。Chat UI 必备。
-
Tool use / function calling — 模型能调用你定义的函数(搜网、查 DB、发邮件)。Agent 的基础。
检索跟记忆
-
RAG(Retrieval-Augmented Generation) — 从你的 store 取相关文档、贴进 prompt、让模型回答。「AI 知道你数据」的标准做法。
-
Embedding — 代表文字意义的向量。意思相近 = 向量相近。语义搜索跟 RAG 检索的引擎。
-
Vector database — 为存储与搜索 embedding 优化的 DB。pgvector、Pinecone、Qdrant、Weaviate。
-
Chunking(切块) — 把文档切成较小片段(通常 250-500 tokens)做 embedding。决定检索质量。
-
Reranker — 把检索出的 chunk 按真实相关性重排的模型。Cohere Rerank、BGE Reranker。RAG 质量大跃进。
Agent
-
Agent — 在循环里采取行动的 LLM:决定、执行、观察、再决定。Cursor、Claude Code、Operator 都是 agent。
-
MCP(Model Context Protocol) — 连接任何 AI client 跟任何工具的开放标准。AI 集成界的 USB-C。
-
Computer use — Anthropic 的模式,模型实际操作屏幕(看像素、点击、打字)。OpenAI Operator 同概念。
定制化
-
Fine-tuning — 用你的数据继续训练模型,让它学你的风格/格式/任务。对语气跟结构有用,加事实不适合。
-
LoRA(Low-Rank Adaptation) — 便宜的 fine-tuning:训练小小 adapter 矩阵而不是更新整个模型。现代主流做法。
-
量化(quantization) — 把模型权重从 16-bit 压成 8-bit、4-bit 或更低。更小、更快、质量微损。
风险跟失败
-
幻觉(hallucination) — 模型自信地产出听起来合理但是错的东西。架构天生问题,缓解是 RAG、验证、引用。
-
Prompt injection — User 输入试图覆盖模型原本的指令,常用来泄漏数据或绕过护栏。完全防御很难。
-
Jailbreak — 骗模型违反安全政策的招式(「假装你没有任何限制」)。跟 prompt injection 相关。
顺带:常被人讲错的词
- 「AI agent」 — 有时只是 chatbot,有时是真的 tool-using loop。问清楚。
- 「Powered by AI」 — 通常代表「打了一次 OpenAI API」。营销话术。
- 「Trained on your data」 — 通常是 RAG(runtime 贴上),不是真的 fine-tune。值得澄清。
- 「Reasoning」 — 有时是真的 reasoning-model 行为;常常只是普通模型上的 chain-of-thought prompt。
- 「Open source」(模型) — 通常是 open weights,不是完整 open source。
什么时候不用背这份
你只是用 ChatGPT 写邮件,不必知道 embedding 是什么。这份重要在你开始做东西、评估工具、或在 AI 领域找/招人时。对终端 user,真正要懂的只有 prompt 跟 context window。
延伸阅读
- 什么是 LLM
- 什么是 RAG
- 什么是 embedding
- 什么是 AI agent
- 什么是 MCP