什麼是 reasoning model?o3、DeepSeek R1 跟「先想再答」的轉變

Reasoning model — OpenAI 的 o3 / o4 系列、DeepSeek R1 / R2、Claude 的 extended thinking 模式、Gemini 的 thinking 變體 — 是被訓練成在輸出最終答案之前多花算力的 LLM。它們不會立刻生答案,而是先生一串內部「思考」token(通常對使用者隱藏),再產出回應。Reasoning 時代從 2024 年底 OpenAI 的 o1 開始,現在已經自成一個類別。

「思考」實際是什麼

標準 LLM 不管問題多難,每個 token 都用差不多的算力。「2+2 等於多少」跟「證明 Riemann 假設」都是每生一個 token 一次 forward pass。這就是為什麼標準模型在難題上不行 — 它沒有方法可以更努力。

Reasoning model 多了一步。遇到難題,模型先生一長串中間思考:試一個方向、檢查、回頭、試另一個、驗證、做結論。然後才生最終答案。中間思考通常:

在 chat 產品裡隱藏(你看到「Thinking…」指示)
在某些 API 裡作為獨立欄位回傳,你可以檢視
計費為 output token — 它們是真的生成,只是標籤不同

一道難的數學或 code 題目可能用 20,000 個 thinking token 才產出 200 token 的答案。每次查詢比非 reasoning 模型多 100 倍算力。

Reasoning model 真的擅長什麼

收益不是均勻分布。Reasoning 在這些地方幫助最大:

**數學。**奧林匹亞風格題、複雜代數、證明。
**寫 code(難的部分)。**演算法設計、debug 棘手邏輯 bug、code review 微妙問題。
**多步規劃。**把目標拆成有序子步驟,尤其有限制條件。
**邏輯謎題、科學推理。**任何要分案討論的事。
**策略決策。**多變數的取捨分析。

跟標準模型差不多的:

**閒聊。**不需要深度思考。
**創意寫作。**Reasoning 沒幫助(可能還傷害)好散文那種漂浮感。
**翻譯、摘要。**主要是 pattern matching。
**簡單 code(「寫一個 CRUD endpoint」)。**標準模型已經很好了。

它們比較弱的地方

三個誠實弱點。

**延遲。**非 reasoning 模型 2-5 秒答完。Reasoning 模型遇難題可能 30 秒到 5 分鐘。Chat UI 沒法用,某些 agent 跟分析 pipeline 必備。

**成本。**Reasoning token 是 output token,還會疊加。一筆原本 $0.01 的查詢,reasoning 模型可能 $0.30+。高量產品根本沒法到處用 reasoning。

**風格跟溫度。**Reasoning 模型輸出比較精簡、有時略機械。正確性強,但聽起來不那麼像人。

什麼時候才該用 reasoning model

實用決策規則:

**簡單任務、要快 UI?**標準模型(Claude Sonnet、GPT-5 Standard、Gemini Flash)。
**難任務、可以批次處理?**Reasoning 模型(o3、DeepSeek R1、Claude extended thinking)。
**簡單任務但驗證很關鍵?**標準模型 + eval 步驟(或對輸出再跑一次 reasoning model)。
**不知道任務多難?**先試標準模型,品質低就升 reasoning。

一個越來越普遍的 pattern:router 架構。便宜的 router 模型分類查詢,再轉給快的標準模型(簡單)或 reasoning 模型(難)。重要的地方拿到 reasoning 品質,其他地方維持標準速度跟成本。

2026 年真實的 reasoning model 陣容

真的有產品的:

OpenAI o3 / o4 系列 — 開山的 reasoning model 線。Code、科學強,旗艦定價。
DeepSeek R1 / R2 — open-weight(對,完整 reasoning 模型,權重公開),品質有競爭力,便宜很多。2025 年的 game changer。
Claude Sonnet / Opus + extended thinking — Anthropic 走法:同一個模型,thinking 時間當參數可調。
Gemini 2.5 Pro thinking — Google 的變體,強在長 context 推理。
Qwen QwQ 等 — open-weight 中文 reasoning 模型,中文推理特別強。

2025 年初 DeepSeek R1 發布很重要,因為它證明前沿 reasoning 能用 open weights 做到,給閉源 lab 定價壓力,也讓任何有 GPU 的人都能用。

常見誤用

三個浪費錢時間的模式。

**用 reasoning 閒聊。**燒 $0.30 回答「哈囉」很蠢。大多數 chat 流量應該打標準模型。

**不需要正確性的場合也用 reasoning。**行銷文案、隨意 email、brainstorm — reasoning 的強項用不上,改用標準模型。

**沒把延遲考慮進去。**做一個 UI 呼叫 reasoning model 然後讓 spinner 轉 90 秒,UX 很糟。如果一定要即時用 reasoning,清楚溝通等待(「分析中…可能需要 2 分鐘」),考慮 stream 部分思考。

什麼時候不要用 reasoning model

**即時聊天。**延遲太高。
**大量批次但成本敏感。**標準模型便宜 5-10 倍。
**講求語氣的創意寫作。**輸出會僵硬。
**標準模型已經 95%+ work 的任務。**邊際收益不值邊際成本。