什麼是 AI agent?跟 chatbot 差在哪?

如果 chatbot 是回答你的問題,agent 是替你完成任務。它讀、決定、執行、觀察結果、再決定,一直跑下去直到事情完成。核心概念就這樣,其他 — 框架、記憶系統、multi-agent 架構 — 都是細節。

最小的 agent loop

剝光所有外殼,每個 AI agent 都跑同一個迴圈:

while 還沒完成:
    1. 看目前狀態跟目標
    2. 用 LLM 決定下一步動作
    3. 執行動作(呼叫工具、API、程式碼)
    4. 觀察結果
    5. 更新狀態

步驟 2 的大腦就是 LLM — 根據目前情況決定下一步做什麼。步驟 3 的「工具」是真的:寄 Slack 訊息、查資料庫、抓網頁、跑一段 Python、寫檔案。Anthropic、OpenAI、Google 的現代 LLM 都支援 tool use(又叫 function calling) — 你描述工具的輸入 schema,模型自己決定何時要呼叫。

簡單例子:幫你研究競品的 agent。

目標:「幫我寫一頁關於 Mistral 的 brief。」
LLM 決定:「先搜尋網路。」呼叫 search_web("Mistral AI")。
拿到 10 個結果。LLM 挑出最有用的 3 個,逐一 fetch_page(url)。
讀完三頁,LLM 決定「資訊夠了,開始寫」。生出 markdown。
完成。

整個 pattern 就這樣。同一個骨架放大就是寫 code 的 agent(Cursor composer、Claude Code)、客服 agent、研究 agent 等等。

Agent 跟 chatbot 差在哪

Chatbot 是單次 LLM 呼叫,你問、它答、結束。

Agent 多了三件事:

**工具(tools)。**它會做事不只會說。Cursor 能改你的檔案,Claude Code 能跑 shell,Operator 能點網頁。可用的工具集就定義了這個 agent 是什麼。

**迴圈(loop)。**Agent 自己決定何時結束。Chatbot 跑一輪,agent 可能跑 50 輪才完成任務。每一輪它讀剛才發生的事、挑下一步、執行。

**跨步驟的記憶。**Agent 累積中的 context — 「我試過什麼、什麼有效」 — 會回饋到每次新決策。所以 agent 的 prompt + context 管理才這麼重要,沒做好它會忘記試過什麼、然後永遠繞圈。

2026 年 agent 為什麼還是不穩

吹捧了一年多,大多數 agent 在 production 還是會壞。核心問題:錯誤會疊加。

如果每一步成功率 95%,10 步任務的整體成功率只剩 ~60%(0.95^10)。50 步任務只剩 7%。多步驟 agent 要嘛每一步可靠度更高、要嘛有偵測 + 恢復錯誤的機制。

真正能跑的 agent 都有防線:

驗證步驟 — 動作做完後檢查真的成功了嗎。
步數上限 — 例如最多跑 20 圈,避免錢爆掉跟無窮迴圈。
Human-in-the-loop — 不可逆的動作(寄信、花錢、刪資料)停下來確認。
專用工具 — 領域特定的工具(例如 Cursor 的檔案編輯原語)減少出錯面積。

2026 年真實在用的 agent 產品

真的在做事的這幾類:

寫 code 的 agent — Cursor composer、Claude Code、Windsurf。改你 repo 裡的 code、跑測試、迭代。最成熟的類別。
網頁操作 agent — OpenAI Operator、Anthropic 的 computer use。瀏覽、點擊、填表單。對重複性網頁工作有用,但還是慢、容易壞。
研究 agent — Perplexity Pro deep research、Claude research mode、Gemini Deep Research。搜尋、閱讀、整合多來源 brief。
垂直 agent — 銷售(Clay、Outreach)、招募(Mercor)、客服(Decagon、Sierra)。限縮在窄領域,所以 work。
個人事務 agent — 訂位、排行程、跑腿。大多是 demo,還不穩。

規律:窄、工具好的 agent 會 work;什麼都做的「萬能 agent」目前還不行。

什麼時候不要用 agent

**任務一個 prompt 就解了。**如果單次 LLM 呼叫就能寫出答案,就用單次。多包一層 agent loop 只是更貴 + 更多失敗模式。
**錯了無法復原的場合。**寄信、扣錢、刪檔案、動 production 系統,沒有逐動作的人類批准就不要讓 agent 自己做。
**沒有 eval。**沒辦法量測「agent 做對了嗎」,你就改不動它。先弄個小型測試集,20 個範例都好。
**每次任務的成本不划算。**循環 30 圈的 agent 一次可能 $0.50-$5。確認這個錢比替代方案(人、簡單工具、或一次手做)便宜。

從哪裡開始

如果你想自己做一個,從這個起手:

一個清楚、窄的任務(「給 CRM 紀錄,幫我擬一封 follow-up」)
一組小、定義明確的工具(3-5 個,有 schema)
步數上限(最多 10 圈)
每一步都記 log,壞了才能 debug
對外動作都要 human-in-the-loop 確認

LangGraph、Mastra、CrewAI 這些框架給你 scaffolding,但第一版用 plain Python 迴圈 + Claude tool-use API,常常更清楚。