跳到内容

入门★★★★★6 分钟阅读

什么是 reasoning model?o3、DeepSeek R1 跟「先想再答」的转变

Reasoning model 回答前会「想一下」 — 有时想好几分钟。它们在数学跟 code 上更强、闲聊不适合、价格也更贵。重要场合才用。

登入以收藏

Reasoning model — OpenAI 的 o3 / o4 系列、DeepSeek R1 / R2、Claude 的 extended thinking 模式、Gemini 的 thinking 变体 — 是被训练成在输出最终答案之前多花算力的 LLM。它们不会立刻生答案,而是先生一串内部「思考」token(通常对用户隐藏),再产出回应。Reasoning 时代从 2024 年底 OpenAI 的 o1 开始,现在已经自成一个类别。

「思考」实际是什么

标准 LLM 不管问题多难,每个 token 都用差不多的算力。「2+2 等于多少」跟「证明 Riemann 假设」都是每生一个 token 一次 forward pass。这就是为什么标准模型在难题上不行 — 它没有办法更努力

Reasoning model 多了一步。遇到难题,模型先生一长串中间思考:试一个方向、检查、回头、试另一个、验证、做结论。然后才生最终答案。中间思考通常:

  • 在 chat 产品里隐藏(你看到「Thinking…」指示)
  • 在某些 API 里作为独立字段返回,你可以查看
  • 计费为 output token — 它们是真的生成,只是标签不同

一道难的数学或 code 题目可能用 20,000 个 thinking token 才产出 200 token 的答案。每次查询比非 reasoning 模型多 100 倍算力。

Reasoning model 真的擅长什么

收益不是均匀分布。Reasoning 在这些地方帮助最大:

  • **数学。**奥赛风格题、复杂代数、证明。
  • **写 code(难的部分)。**算法设计、debug 棘手逻辑 bug、code review 微妙问题。
  • **多步规划。**把目标拆成有序子步骤,尤其有约束条件。
  • **逻辑谜题、科学推理。**任何要分情况讨论的事。
  • **策略决策。**多变量的取舍分析。

跟标准模型差不多的:

  • **闲聊。**不需要深度思考。
  • **创意写作。**Reasoning 没帮助(可能还伤害)好散文那种漂浮感。
  • **翻译、摘要。**主要是 pattern matching。
  • **简单 code(「写一个 CRUD endpoint」)。**标准模型已经很好了。

它们比较弱的地方

三个诚实弱点。

**延迟。**非 reasoning 模型 2-5 秒答完。Reasoning 模型遇难题可能 30 秒到 5 分钟。Chat UI 没法用,某些 agent 跟分析 pipeline 必备。

**成本。**Reasoning token 是 output token,还会叠加。一笔原本 $0.01 的查询,reasoning 模型可能 $0.30+。高量产品根本没法到处用 reasoning。

**风格跟温度。**Reasoning 模型输出比较精简、有时略机械。正确性强,但听起来不那么像人。

什么时候才该用 reasoning model

实用决策规则:

  • **简单任务、要快 UI?**标准模型(Claude Sonnet、GPT-5 Standard、Gemini Flash)。
  • **难任务、可以批次处理?**Reasoning 模型(o3、DeepSeek R1、Claude extended thinking)。
  • **简单任务但验证很关键?**标准模型 + eval 步骤(或对输出再跑一次 reasoning model)。
  • **不知道任务多难?**先试标准模型,质量低就升 reasoning。

一个越来越普遍的 pattern:router 架构。便宜的 router 模型分类查询,再转给快的标准模型(简单)或 reasoning 模型(难)。重要的地方拿到 reasoning 质量,其他地方维持标准速度跟成本。

2026 年真实的 reasoning model 阵容

真的有产品的:

  • OpenAI o3 / o4 系列 — 开山的 reasoning model 线。Code、科学强,旗舰定价。
  • DeepSeek R1 / R2 — open-weight(对,完整 reasoning 模型,权重公开),质量有竞争力,便宜很多。2025 年的 game changer。
  • Claude Sonnet / Opus + extended thinking — Anthropic 走法:同一个模型,thinking 时间当参数可调。
  • Gemini 2.5 Pro thinking — Google 的变体,强在长 context 推理。
  • Qwen QwQ 等 — open-weight 中文 reasoning 模型,中文推理特别强。

2025 年初 DeepSeek R1 发布很重要,因为它证明前沿 reasoning 能用 open weights 做到,给闭源 lab 定价压力,也让任何有 GPU 的人都能用。

常见误用

三个浪费钱时间的模式。

**用 reasoning 闲聊。**烧 $0.30 回答「哈喽」很蠢。大多数 chat 流量应该打标准模型。

**不需要正确性的场合也用 reasoning。**营销文案、随意 email、brainstorm — reasoning 的强项用不上,改用标准模型。

**没把延迟考虑进去。**做一个 UI 调用 reasoning model 然后让 spinner 转 90 秒,UX 很糟。如果一定要实时用 reasoning,清楚沟通等待(「分析中…可能需要 2 分钟」),考虑 stream 部分思考。

什么时候不要用 reasoning model

  • **实时聊天。**延迟太高。
  • **大量批次但成本敏感。**标准模型便宜 5-10 倍。
  • **讲求语气的创意写作。**输出会僵硬。
  • **标准模型已经 95%+ work 的任务。**边际收益不值边际成本。

延伸阅读

  • 什么是 LLM
  • 怎么为你的场景挑对 LLM
  • LLM routing:把简单问题丢给便宜模型
  • Open-source LLM vs 前沿 API:什么任务该用哪个
  • 怎么把 LLM API 账单砍半

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

什么是 reasoning model?o3、DeepSeek R1 跟「先想再答」的转变 · BuilderWorld