什么是大语言模型(LLM)?用人话解释

Large Language Model(大语言模型,简称 LLM)是 ChatGPT、Claude、Gemini 内部那个东西的技术名称。听起来吓人,但它运作的原理其实意外地简单 — 而且理解这件事会改变你用这些工具的方式。

一句话说完

LLM 是一个统计模型,用海量文本训练出来。给它任何一段文字当输入,它的工作就是预测下一个 token(大致上等于下一个字或字的一部分)。就这样。所有其他你看到的东西 — 长篇回答、代码、故事、看起来像在推理 — 都是把这一个预测步骤重复几千次的结果。

当你在 Claude 输入「用 10 岁小孩听得懂的方式解释量子纠缠」,模型会产出一个概率分布,覆盖每一个可能的下一个 token。它挑一个(挑得有多随机由 temperature 这个参数控制),接上去,再对这段现在更长的文字做同样的预测。重复,直到模型预测出「结束」这个 token。整段回答就是一个字接一个字、超级快速的 autocomplete。

这听起来太简单,不可能产出连贯的段落。关键在于模型训练的数据量够大 — 从网络、书、代码、论文来的好几万亿个字 — 大到语言的统计结构本身就包含了很多我们称为「知识」的东西。

为什么这个原理解释了一大堆现象

一旦你内化「它在预测下一个 token」,很多奇怪的行为就讲得通了。

**为什么它会幻觉。**模型不知道什么是真的。它只知道「在这个 context 下,接下来通常会出现什么样的东西」。你问一个真实但冷门的法条,它会生出一段看起来像真实法条引用的东西。有时候是真的,有时候不是。模型自己分辨不出来。

**为什么 prompt 这么重要。**好的 prompt 把概率分布推往更好的下一个 token。「写 Python」跟「用 Python 3.12 的 async/await + type hints,参考 FastAPI 官方文档的风格」这两个指令会把模型导向训练数据里完全不同的区域。

为什么它不会数字母、不会做精确算术。模型看到的世界是 token 不是字符。问 GPT-4「strawberry 有几个 r」常常答错,因为 strawberry 在它词表里是一个 token。

**为什么 context 那么关键。**模型只看得到 context window 里面的东西。如果你跟它对话很久、超过上限、旧消息被挤掉了 — 它不是「忘记」,是那些 token 真的不在了。

LLM 是怎么做出来的

流程有三个阶段。

**预训练(pre-training)**是模型「读网络」的阶段。工程师收集巨大的数据集(Common Crawl、书、GitHub、科学文献),然后让模型反复预测被遮起来的下一个 token,直到预测得够准。这阶段烧掉几百万美元的 GPU 时间,产出一个「base model」 — 它知道很多东西但完全不会听指令,你问它一个问题,它会自顾自地把问题变得更长,而不是回答。

**后训练(post-training)**把 base model 调成有用的东西。团队喂它好的问答样本(supervised fine-tuning),再用 RLHF(Reinforcement Learning from Human Feedback)或 DPO 之类的技术,训练它偏好「有用、无害、诚实」的回答,而不是不好的那种。

**推理(inference)**是你实际使用的时候。训练好的模型住在 GPU 服务器上,接收你的输入,生成输出。每一次查询的成本比训练低很多,但乘上几百万个 user 还是很贵 — 这就是为什么 GPT-4 每个 token 的价格比 GPT-3.5 高。

前沿闭源模型 vs 开源权重模型

2026 年的 LLM 大致分两个层级。

前沿闭源(frontier closed) — Claude(Anthropic)、GPT-5(OpenAI)、Gemini(Google) — 是最强的那一批。只能通过 API 或他们自家 chat 产品获取,模型权重不公开,每次查询要付钱。

开源权重(open-weights) — Llama(Meta)、DeepSeek V3 / R1、Qwen(阿里)、Mistral — 公开模型权重。你可以下载一个 70B 参数的模型,在自己的 GPU 机器上跑,用自己的数据 fine-tune,完全不付每次查询的钱。最好的开源模型大约落后前沿闭源 6 到 12 个月,但对很多任务来说这个差距已经小到「便宜 + 私有 + 自主」会赢。

LLM 不擅长的事

三个诚实的弱点。

**实时信息。**没有外接工具的话,LLM 只知道训练数据里有过的东西。问 Claude 今天的股价,它要么拒绝、要么猜。
**精确算术和计数。**它是统计文本引擎,不是计算器。任何攸关正确数字的事,要么给模型一个工具(Python interpreter),要么自己验一次。
**长文档的忠实摘要。**模型会漂移,context 越长越明显。摘要一份 100 页的合同,高风险条款请手动验证。

一个合理的心智模型:LLM 是一个聪明、口才好的实习生,读过所有书但没有一件事记得很精确,不知道也不会承认,而且每月只要 $20。请用这个方式对待它。