2026 年 AI 入门必懂的 30 个名词

你只要在 AI 圈待过一段时间,一定听过一堆缩写和怪词。这份就是速查单 — 30 个词,每个一两句、不绕学术。书签起来,下次开会听到忘记是什么直接翻。

模型与架构

LLM(Large Language Model) — 用海量文字训练、预测下一个 token 的统计模型。ChatGPT、Claude、Gemini 都是 LLM。输出就是一个 token 接一个 token 的高速 autocomplete。
Token — LLM 真正看到的单位。英文约 0.75 词一个 token,中文 1-2 个 token 一个字。计价跟 context 的单位。
Context window — 每次请求模型能处理的最大 token 数。Claude 200K、Gemini 1M+。包含 prompt + 历史 + 预留输出。
参数(parameters) — 模型内部的数字。「7B」= 70 亿参数。通常越多越强但更慢更贵。
预训练(pre-training) — 一开始用网络文字海量训练。产出 base model,知道很多事但不会听指令。
后训练(post-training,RLHF、DPO) — 用人类反馈把 base model 调成有用、无害、诚实。ChatGPT 这个产品就从这里来。
多模态(multimodal) — 模型原生处理文字、图片、音频、有时视频。2026 年大部分前沿模型默认都多模态。
Reasoning model — 训练过程让模型在回答前多花算力「思考」。o3、DeepSeek R1、Claude extended thinking。数学/code 强、慢、贵。
MoE(Mixture of Experts) — 每次查询只激活一部分参数的架构。让 200B 模型跑得跟 30B 一样快。Mixtral、DeepSeek V3 采用。
Open weights — 训练好的权重可以下载自己跑的模型。Llama、Qwen、DeepSeek、Mistral。常被宽松称「open source」。

RAG(Retrieval-Augmented Generation) — 从你的 store 取相关文档、贴进 prompt、让模型回答。「AI 知道你数据」的标准做法。
Embedding — 代表文字意义的向量。意思相近 = 向量相近。语义搜索跟 RAG 检索的引擎。
Vector database — 为存储与搜索 embedding 优化的 DB。pgvector、Pinecone、Qdrant、Weaviate。
Chunking(切块) — 把文档切成较小片段(通常 250-500 tokens)做 embedding。决定检索质量。
Reranker — 把检索出的 chunk 按真实相关性重排的模型。Cohere Rerank、BGE Reranker。RAG 质量大跃进。

Fine-tuning — 用你的数据继续训练模型,让它学你的风格/格式/任务。对语气跟结构有用,加事实不适合。
LoRA(Low-Rank Adaptation) — 便宜的 fine-tuning:训练小小 adapter 矩阵而不是更新整个模型。现代主流做法。
量化(quantization) — 把模型权重从 16-bit 压成 8-bit、4-bit 或更低。更小、更快、质量微损。

你只是用 ChatGPT 写邮件,不必知道 embedding 是什么。这份重要在你开始做东西、评估工具、或在 AI 领域找/招人时。对终端 user,真正要懂的只有 prompt 跟 context window。