什么是 AI agent?跟 chatbot 差在哪?

如果 chatbot 是回答你的问题,agent 是替你完成任务。它读、决定、执行、观察结果、再决定,一直跑下去直到事情完成。核心概念就这样,其他 — 框架、记忆系统、multi-agent 架构 — 都是细节。

最小的 agent loop

剥光所有外壳,每个 AI agent 都跑同一个循环:

while 还没完成:
    1. 看目前状态跟目标
    2. 用 LLM 决定下一步动作
    3. 执行动作(调用工具、API、代码)
    4. 观察结果
    5. 更新状态

步骤 2 的大脑就是 LLM — 根据目前情况决定下一步做什么。步骤 3 的「工具」是真的:发 Slack 消息、查数据库、抓网页、跑一段 Python、写文件。Anthropic、OpenAI、Google 的现代 LLM 都支持 tool use(又叫 function calling) — 你描述工具的输入 schema,模型自己决定何时要调用。

简单例子:帮你研究竞品的 agent。

目标:「帮我写一页关于 Mistral 的 brief。」
LLM 决定:「先搜索网络。」调用 search_web("Mistral AI")。
拿到 10 个结果。LLM 挑出最有用的 3 个,逐一 fetch_page(url)。
读完三页,LLM 决定「信息够了,开始写」。生出 markdown。
完成。

整个 pattern 就这样。同一个骨架放大就是写 code 的 agent(Cursor composer、Claude Code)、客服 agent、研究 agent 等等。

Agent 跟 chatbot 差在哪

Chatbot 是单次 LLM 调用,你问、它答、结束。

Agent 多了三件事:

**工具(tools)。**它会做事不只会说。Cursor 能改你的文件,Claude Code 能跑 shell,Operator 能点网页。可用的工具集就定义了这个 agent 是什么。

**循环(loop)。**Agent 自己决定何时结束。Chatbot 跑一轮,agent 可能跑 50 轮才完成任务。每一轮它读刚才发生的事、挑下一步、执行。

**跨步骤的记忆。**Agent 累积中的 context — 「我试过什么、什么有效」 — 会反馈到每次新决策。所以 agent 的 prompt + context 管理才这么重要,没做好它会忘记试过什么、然后永远绕圈。

2026 年 agent 为什么还是不稳

吹捧了一年多,大多数 agent 在 production 还是会坏。核心问题:错误会叠加。

如果每一步成功率 95%,10 步任务的整体成功率只剩 ~60%(0.95^10)。50 步任务只剩 7%。多步骤 agent 要么每一步可靠度更高、要么有检测 + 恢复错误的机制。

真正能跑的 agent 都有防线:

验证步骤 — 动作做完后检查真的成功了吗。
步数上限 — 例如最多跑 20 圈,避免钱爆掉跟无穷循环。
Human-in-the-loop — 不可逆的动作(发邮件、花钱、删数据)停下来确认。
专用工具 — 领域特定的工具(例如 Cursor 的文件编辑原语)减少出错面积。

2026 年真实在用的 agent 产品

真的在做事的这几类:

写 code 的 agent — Cursor composer、Claude Code、Windsurf。改你 repo 里的 code、跑测试、迭代。最成熟的类别。
网页操作 agent — OpenAI Operator、Anthropic 的 computer use。浏览、点击、填表单。对重复性网页工作有用,但还是慢、容易坏。
研究 agent — Perplexity Pro deep research、Claude research mode、Gemini Deep Research。搜索、阅读、整合多来源 brief。
垂直 agent — 销售(Clay、Outreach)、招聘(Mercor)、客服(Decagon、Sierra)。限缩在窄领域,所以 work。
个人事务 agent — 订位、排日程、跑腿。大多是 demo,还不稳。

规律:窄、工具好的 agent 会 work;什么都做的「万能 agent」目前还不行。

什么时候不要用 agent

**任务一个 prompt 就解了。**如果单次 LLM 调用就能写出答案,就用单次。多包一层 agent loop 只是更贵 + 更多失败模式。
**错了无法恢复的场合。**发邮件、扣钱、删文件、动 production 系统,没有逐动作的人类批准就不要让 agent 自己做。
**没有 eval。**没办法量测「agent 做对了吗」,你就改不动它。先弄个小型测试集,20 个示例都好。
**每次任务的成本不划算。**循环 30 圈的 agent 一次可能 $0.50-$5。确认这个钱比替代方案(人、简单工具、或一次手做)便宜。

从哪里开始

如果你想自己做一个,从这个起手:

一个清楚、窄的任务(「给 CRM 记录,帮我拟一封 follow-up」)
一组小、定义明确的工具(3-5 个,有 schema)
步数上限(最多 10 圈)
每一步都记 log,坏了才能 debug
对外动作都要 human-in-the-loop 确认

LangGraph、Mastra、CrewAI 这些框架给你 scaffolding,但第一版用 plain Python 循环 + Claude tool-use API,常常更清楚。