Reasoning model — OpenAI 的 o3 / o4 系列、DeepSeek R1 / R2、Claude 的 extended thinking 模式、Gemini 的 thinking 變體 — 是被訓練成在輸出最終答案之前多花算力的 LLM。它們不會立刻生答案,而是先生一串內部「思考」token(通常對使用者隱藏),再產出回應。Reasoning 時代從 2024 年底 OpenAI 的 o1 開始,現在已經自成一個類別。
「思考」實際是什麼
標準 LLM 不管問題多難,每個 token 都用差不多的算力。「2+2 等於多少」跟「證明 Riemann 假設」都是每生一個 token 一次 forward pass。這就是為什麼標準模型在難題上不行 — 它沒有方法可以更努力。
Reasoning model 多了一步。遇到難題,模型先生一長串中間思考:試一個方向、檢查、回頭、試另一個、驗證、做結論。然後才生最終答案。中間思考通常:
- 在 chat 產品裡隱藏(你看到「Thinking…」指示)
- 在某些 API 裡作為獨立欄位回傳,你可以檢視
- 計費為 output token — 它們是真的生成,只是標籤不同
一道難的數學或 code 題目可能用 20,000 個 thinking token 才產出 200 token 的答案。每次查詢比非 reasoning 模型多 100 倍算力。
Reasoning model 真的擅長什麼
收益不是均勻分布。Reasoning 在這些地方幫助最大:
- **數學。**奧林匹亞風格題、複雜代數、證明。
- **寫 code(難的部分)。**演算法設計、debug 棘手邏輯 bug、code review 微妙問題。
- **多步規劃。**把目標拆成有序子步驟,尤其有限制條件。
- **邏輯謎題、科學推理。**任何要分案討論的事。
- **策略決策。**多變數的取捨分析。
跟標準模型差不多的:
- **閒聊。**不需要深度思考。
- **創意寫作。**Reasoning 沒幫助(可能還傷害)好散文那種漂浮感。
- **翻譯、摘要。**主要是 pattern matching。
- **簡單 code(「寫一個 CRUD endpoint」)。**標準模型已經很好了。
它們比較弱的地方
三個誠實弱點。
**延遲。**非 reasoning 模型 2-5 秒答完。Reasoning 模型遇難題可能 30 秒到 5 分鐘。Chat UI 沒法用,某些 agent 跟分析 pipeline 必備。
**成本。**Reasoning token 是 output token,還會疊加。一筆原本 $0.01 的查詢,reasoning 模型可能 $0.30+。高量產品根本沒法到處用 reasoning。
**風格跟溫度。**Reasoning 模型輸出比較精簡、有時略機械。正確性強,但聽起來不那麼像人。
什麼時候才該用 reasoning model
實用決策規則:
- **簡單任務、要快 UI?**標準模型(Claude Sonnet、GPT-5 Standard、Gemini Flash)。
- **難任務、可以批次處理?**Reasoning 模型(o3、DeepSeek R1、Claude extended thinking)。
- **簡單任務但驗證很關鍵?**標準模型 + eval 步驟(或對輸出再跑一次 reasoning model)。
- **不知道任務多難?**先試標準模型,品質低就升 reasoning。
一個越來越普遍的 pattern:router 架構。便宜的 router 模型分類查詢,再轉給快的標準模型(簡單)或 reasoning 模型(難)。重要的地方拿到 reasoning 品質,其他地方維持標準速度跟成本。
2026 年真實的 reasoning model 陣容
真的有產品的:
- OpenAI o3 / o4 系列 — 開山的 reasoning model 線。Code、科學強,旗艦定價。
- DeepSeek R1 / R2 — open-weight(對,完整 reasoning 模型,權重公開),品質有競爭力,便宜很多。2025 年的 game changer。
- Claude Sonnet / Opus + extended thinking — Anthropic 走法:同一個模型,thinking 時間當參數可調。
- Gemini 2.5 Pro thinking — Google 的變體,強在長 context 推理。
- Qwen QwQ 等 — open-weight 中文 reasoning 模型,中文推理特別強。
2025 年初 DeepSeek R1 發布很重要,因為它證明前沿 reasoning 能用 open weights 做到,給閉源 lab 定價壓力,也讓任何有 GPU 的人都能用。
常見誤用
三個浪費錢時間的模式。
**用 reasoning 閒聊。**燒 $0.30 回答「哈囉」很蠢。大多數 chat 流量應該打標準模型。
**不需要正確性的場合也用 reasoning。**行銷文案、隨意 email、brainstorm — reasoning 的強項用不上,改用標準模型。
**沒把延遲考慮進去。**做一個 UI 呼叫 reasoning model 然後讓 spinner 轉 90 秒,UX 很糟。如果一定要即時用 reasoning,清楚溝通等待(「分析中…可能需要 2 分鐘」),考慮 stream 部分思考。
什麼時候不要用 reasoning model
- **即時聊天。**延遲太高。
- **大量批次但成本敏感。**標準模型便宜 5-10 倍。
- **講求語氣的創意寫作。**輸出會僵硬。
- **標準模型已經 95%+ work 的任務。**邊際收益不值邊際成本。
延伸閱讀
- 什麼是 LLM
- 怎麼為你的場景挑對 LLM
- LLM routing:把簡單問題丟給便宜模型
- Open-source LLM vs 前沿 API:什麼任務該用哪個
- 怎麼把 LLM API 帳單砍半