什么是 reasoning model?o3、DeepSeek R1 跟「先想再答」的转变

Reasoning model — OpenAI 的 o3 / o4 系列、DeepSeek R1 / R2、Claude 的 extended thinking 模式、Gemini 的 thinking 变体 — 是被训练成在输出最终答案之前多花算力的 LLM。它们不会立刻生答案,而是先生一串内部「思考」token(通常对用户隐藏),再产出回应。Reasoning 时代从 2024 年底 OpenAI 的 o1 开始,现在已经自成一个类别。

「思考」实际是什么

标准 LLM 不管问题多难,每个 token 都用差不多的算力。「2+2 等于多少」跟「证明 Riemann 假设」都是每生一个 token 一次 forward pass。这就是为什么标准模型在难题上不行 — 它没有办法更努力。

Reasoning model 多了一步。遇到难题,模型先生一长串中间思考:试一个方向、检查、回头、试另一个、验证、做结论。然后才生最终答案。中间思考通常:

在 chat 产品里隐藏(你看到「Thinking…」指示)
在某些 API 里作为独立字段返回,你可以查看
计费为 output token — 它们是真的生成,只是标签不同

一道难的数学或 code 题目可能用 20,000 个 thinking token 才产出 200 token 的答案。每次查询比非 reasoning 模型多 100 倍算力。

Reasoning model 真的擅长什么

收益不是均匀分布。Reasoning 在这些地方帮助最大:

**数学。**奥赛风格题、复杂代数、证明。
**写 code(难的部分)。**算法设计、debug 棘手逻辑 bug、code review 微妙问题。
**多步规划。**把目标拆成有序子步骤,尤其有约束条件。
**逻辑谜题、科学推理。**任何要分情况讨论的事。
**策略决策。**多变量的取舍分析。

跟标准模型差不多的:

**闲聊。**不需要深度思考。
**创意写作。**Reasoning 没帮助(可能还伤害)好散文那种漂浮感。
**翻译、摘要。**主要是 pattern matching。
**简单 code(「写一个 CRUD endpoint」)。**标准模型已经很好了。

它们比较弱的地方

三个诚实弱点。

**延迟。**非 reasoning 模型 2-5 秒答完。Reasoning 模型遇难题可能 30 秒到 5 分钟。Chat UI 没法用,某些 agent 跟分析 pipeline 必备。

**成本。**Reasoning token 是 output token,还会叠加。一笔原本 $0.01 的查询,reasoning 模型可能 $0.30+。高量产品根本没法到处用 reasoning。

**风格跟温度。**Reasoning 模型输出比较精简、有时略机械。正确性强,但听起来不那么像人。

什么时候才该用 reasoning model

实用决策规则:

**简单任务、要快 UI?**标准模型(Claude Sonnet、GPT-5 Standard、Gemini Flash)。
**难任务、可以批次处理?**Reasoning 模型(o3、DeepSeek R1、Claude extended thinking)。
**简单任务但验证很关键?**标准模型 + eval 步骤(或对输出再跑一次 reasoning model)。
**不知道任务多难?**先试标准模型,质量低就升 reasoning。

一个越来越普遍的 pattern:router 架构。便宜的 router 模型分类查询,再转给快的标准模型(简单)或 reasoning 模型(难)。重要的地方拿到 reasoning 质量,其他地方维持标准速度跟成本。

2026 年真实的 reasoning model 阵容

真的有产品的:

OpenAI o3 / o4 系列 — 开山的 reasoning model 线。Code、科学强,旗舰定价。
DeepSeek R1 / R2 — open-weight(对,完整 reasoning 模型,权重公开),质量有竞争力,便宜很多。2025 年的 game changer。
Claude Sonnet / Opus + extended thinking — Anthropic 走法:同一个模型,thinking 时间当参数可调。
Gemini 2.5 Pro thinking — Google 的变体,强在长 context 推理。
Qwen QwQ 等 — open-weight 中文 reasoning 模型,中文推理特别强。

2025 年初 DeepSeek R1 发布很重要,因为它证明前沿 reasoning 能用 open weights 做到,给闭源 lab 定价压力,也让任何有 GPU 的人都能用。

常见误用

三个浪费钱时间的模式。

**用 reasoning 闲聊。**烧 $0.30 回答「哈喽」很蠢。大多数 chat 流量应该打标准模型。

**不需要正确性的场合也用 reasoning。**营销文案、随意 email、brainstorm — reasoning 的强项用不上,改用标准模型。

**没把延迟考虑进去。**做一个 UI 调用 reasoning model 然后让 spinner 转 90 秒,UX 很糟。如果一定要实时用 reasoning,清楚沟通等待(「分析中…可能需要 2 分钟」),考虑 stream 部分思考。

什么时候不要用 reasoning model

**实时聊天。**延迟太高。
**大量批次但成本敏感。**标准模型便宜 5-10 倍。
**讲求语气的创意写作。**输出会僵硬。
**标准模型已经 95%+ work 的任务。**边际收益不值边际成本。