如果 chatbot 是回答你的問題,agent 是替你完成任務。它讀、決定、執行、觀察結果、再決定,一直跑下去直到事情完成。核心概念就這樣,其他 — 框架、記憶系統、multi-agent 架構 — 都是細節。
最小的 agent loop
剝光所有外殼,每個 AI agent 都跑同一個迴圈:
while 還沒完成:
1. 看目前狀態跟目標
2. 用 LLM 決定下一步動作
3. 執行動作(呼叫工具、API、程式碼)
4. 觀察結果
5. 更新狀態
步驟 2 的大腦就是 LLM — 根據目前情況決定下一步做什麼。步驟 3 的「工具」是真的:寄 Slack 訊息、查資料庫、抓網頁、跑一段 Python、寫檔案。Anthropic、OpenAI、Google 的現代 LLM 都支援 tool use(又叫 function calling) — 你描述工具的輸入 schema,模型自己決定何時要呼叫。
簡單例子:幫你研究競品的 agent。
- 目標:「幫我寫一頁關於 Mistral 的 brief。」
- LLM 決定:「先搜尋網路。」呼叫
search_web("Mistral AI")。 - 拿到 10 個結果。LLM 挑出最有用的 3 個,逐一
fetch_page(url)。 - 讀完三頁,LLM 決定「資訊夠了,開始寫」。生出 markdown。
- 完成。
整個 pattern 就這樣。同一個骨架放大就是寫 code 的 agent(Cursor composer、Claude Code)、客服 agent、研究 agent 等等。
Agent 跟 chatbot 差在哪
Chatbot 是單次 LLM 呼叫,你問、它答、結束。
Agent 多了三件事:
**工具(tools)。**它會做事不只會說。Cursor 能改你的檔案,Claude Code 能跑 shell,Operator 能點網頁。可用的工具集就定義了這個 agent 是什麼。
**迴圈(loop)。**Agent 自己決定何時結束。Chatbot 跑一輪,agent 可能跑 50 輪才完成任務。每一輪它讀剛才發生的事、挑下一步、執行。
**跨步驟的記憶。**Agent 累積中的 context — 「我試過什麼、什麼有效」 — 會回饋到每次新決策。所以 agent 的 prompt + context 管理才這麼重要,沒做好它會忘記試過什麼、然後永遠繞圈。
2026 年 agent 為什麼還是不穩
吹捧了一年多,大多數 agent 在 production 還是會壞。核心問題:錯誤會疊加。
如果每一步成功率 95%,10 步任務的整體成功率只剩 ~60%(0.95^10)。50 步任務只剩 7%。多步驟 agent 要嘛每一步可靠度更高、要嘛有偵測 + 恢復錯誤的機制。
真正能跑的 agent 都有防線:
- 驗證步驟 — 動作做完後檢查真的成功了嗎。
- 步數上限 — 例如最多跑 20 圈,避免錢爆掉跟無窮迴圈。
- Human-in-the-loop — 不可逆的動作(寄信、花錢、刪資料)停下來確認。
- 專用工具 — 領域特定的工具(例如 Cursor 的檔案編輯原語)減少出錯面積。
2026 年真實在用的 agent 產品
真的在做事的這幾類:
- 寫 code 的 agent — Cursor composer、Claude Code、Windsurf。改你 repo 裡的 code、跑測試、迭代。最成熟的類別。
- 網頁操作 agent — OpenAI Operator、Anthropic 的 computer use。瀏覽、點擊、填表單。對重複性網頁工作有用,但還是慢、容易壞。
- 研究 agent — Perplexity Pro deep research、Claude research mode、Gemini Deep Research。搜尋、閱讀、整合多來源 brief。
- 垂直 agent — 銷售(Clay、Outreach)、招募(Mercor)、客服(Decagon、Sierra)。限縮在窄領域,所以 work。
- 個人事務 agent — 訂位、排行程、跑腿。大多是 demo,還不穩。
規律:窄、工具好的 agent 會 work;什麼都做的「萬能 agent」目前還不行。
什麼時候不要用 agent
- **任務一個 prompt 就解了。**如果單次 LLM 呼叫就能寫出答案,就用單次。多包一層 agent loop 只是更貴 + 更多失敗模式。
- **錯了無法復原的場合。**寄信、扣錢、刪檔案、動 production 系統,沒有逐動作的人類批准就不要讓 agent 自己做。
- **沒有 eval。**沒辦法量測「agent 做對了嗎」,你就改不動它。先弄個小型測試集,20 個範例都好。
- **每次任務的成本不划算。**循環 30 圈的 agent 一次可能 $0.50-$5。確認這個錢比替代方案(人、簡單工具、或一次手做)便宜。
從哪裡開始
如果你想自己做一個,從這個起手:
- 一個清楚、窄的任務(「給 CRM 紀錄,幫我擬一封 follow-up」)
- 一組小、定義明確的工具(3-5 個,有 schema)
- 步數上限(最多 10 圈)
- 每一步都記 log,壞了才能 debug
- 對外動作都要 human-in-the-loop 確認
LangGraph、Mastra、CrewAI 這些框架給你 scaffolding,但第一版用 plain Python 迴圈 + Claude tool-use API,常常更清楚。
延伸閱讀
- 什麼是 tool use / function calling
- 什麼是 MCP
- 從零做一個 agent loop(不用框架)
- Debug 一個怪怪的多步驟 agent
- 怎麼挑 agent 框架(LangGraph vs CrewAI vs Mastra)