Reasoning model — OpenAI 的 o3 / o4 系列、DeepSeek R1 / R2、Claude 的 extended thinking 模式、Gemini 的 thinking 变体 — 是被训练成在输出最终答案之前多花算力的 LLM。它们不会立刻生答案,而是先生一串内部「思考」token(通常对用户隐藏),再产出回应。Reasoning 时代从 2024 年底 OpenAI 的 o1 开始,现在已经自成一个类别。
「思考」实际是什么
标准 LLM 不管问题多难,每个 token 都用差不多的算力。「2+2 等于多少」跟「证明 Riemann 假设」都是每生一个 token 一次 forward pass。这就是为什么标准模型在难题上不行 — 它没有办法更努力。
Reasoning model 多了一步。遇到难题,模型先生一长串中间思考:试一个方向、检查、回头、试另一个、验证、做结论。然后才生最终答案。中间思考通常:
- 在 chat 产品里隐藏(你看到「Thinking…」指示)
- 在某些 API 里作为独立字段返回,你可以查看
- 计费为 output token — 它们是真的生成,只是标签不同
一道难的数学或 code 题目可能用 20,000 个 thinking token 才产出 200 token 的答案。每次查询比非 reasoning 模型多 100 倍算力。
Reasoning model 真的擅长什么
收益不是均匀分布。Reasoning 在这些地方帮助最大:
- **数学。**奥赛风格题、复杂代数、证明。
- **写 code(难的部分)。**算法设计、debug 棘手逻辑 bug、code review 微妙问题。
- **多步规划。**把目标拆成有序子步骤,尤其有约束条件。
- **逻辑谜题、科学推理。**任何要分情况讨论的事。
- **策略决策。**多变量的取舍分析。
跟标准模型差不多的:
- **闲聊。**不需要深度思考。
- **创意写作。**Reasoning 没帮助(可能还伤害)好散文那种漂浮感。
- **翻译、摘要。**主要是 pattern matching。
- **简单 code(「写一个 CRUD endpoint」)。**标准模型已经很好了。
它们比较弱的地方
三个诚实弱点。
**延迟。**非 reasoning 模型 2-5 秒答完。Reasoning 模型遇难题可能 30 秒到 5 分钟。Chat UI 没法用,某些 agent 跟分析 pipeline 必备。
**成本。**Reasoning token 是 output token,还会叠加。一笔原本 $0.01 的查询,reasoning 模型可能 $0.30+。高量产品根本没法到处用 reasoning。
**风格跟温度。**Reasoning 模型输出比较精简、有时略机械。正确性强,但听起来不那么像人。
什么时候才该用 reasoning model
实用决策规则:
- **简单任务、要快 UI?**标准模型(Claude Sonnet、GPT-5 Standard、Gemini Flash)。
- **难任务、可以批次处理?**Reasoning 模型(o3、DeepSeek R1、Claude extended thinking)。
- **简单任务但验证很关键?**标准模型 + eval 步骤(或对输出再跑一次 reasoning model)。
- **不知道任务多难?**先试标准模型,质量低就升 reasoning。
一个越来越普遍的 pattern:router 架构。便宜的 router 模型分类查询,再转给快的标准模型(简单)或 reasoning 模型(难)。重要的地方拿到 reasoning 质量,其他地方维持标准速度跟成本。
2026 年真实的 reasoning model 阵容
真的有产品的:
- OpenAI o3 / o4 系列 — 开山的 reasoning model 线。Code、科学强,旗舰定价。
- DeepSeek R1 / R2 — open-weight(对,完整 reasoning 模型,权重公开),质量有竞争力,便宜很多。2025 年的 game changer。
- Claude Sonnet / Opus + extended thinking — Anthropic 走法:同一个模型,thinking 时间当参数可调。
- Gemini 2.5 Pro thinking — Google 的变体,强在长 context 推理。
- Qwen QwQ 等 — open-weight 中文 reasoning 模型,中文推理特别强。
2025 年初 DeepSeek R1 发布很重要,因为它证明前沿 reasoning 能用 open weights 做到,给闭源 lab 定价压力,也让任何有 GPU 的人都能用。
常见误用
三个浪费钱时间的模式。
**用 reasoning 闲聊。**烧 $0.30 回答「哈喽」很蠢。大多数 chat 流量应该打标准模型。
**不需要正确性的场合也用 reasoning。**营销文案、随意 email、brainstorm — reasoning 的强项用不上,改用标准模型。
**没把延迟考虑进去。**做一个 UI 调用 reasoning model 然后让 spinner 转 90 秒,UX 很糟。如果一定要实时用 reasoning,清楚沟通等待(「分析中…可能需要 2 分钟」),考虑 stream 部分思考。
什么时候不要用 reasoning model
- **实时聊天。**延迟太高。
- **大量批次但成本敏感。**标准模型便宜 5-10 倍。
- **讲求语气的创意写作。**输出会僵硬。
- **标准模型已经 95%+ work 的任务。**边际收益不值边际成本。
延伸阅读
- 什么是 LLM
- 怎么为你的场景挑对 LLM
- LLM routing:把简单问题丢给便宜模型
- Open-source LLM vs 前沿 API:什么任务该用哪个
- 怎么把 LLM API 账单砍半