跳到内容

入门★★★★★6 分钟阅读

什么是 AI agent?跟 chatbot 差在哪?

Agent 就是会行动的 LLM:点链接、跑程序、查 API,还会检查自己有没有做对、不对就重来。「重来」这件事让它强大,也让它脆弱。

登入以收藏

如果 chatbot 是回答你的问题,agent 是替你完成任务。它读、决定、执行、观察结果、再决定,一直跑下去直到事情完成。核心概念就这样,其他 — 框架、记忆系统、multi-agent 架构 — 都是细节。

最小的 agent loop

剥光所有外壳,每个 AI agent 都跑同一个循环:

while 还没完成:
    1. 看目前状态跟目标
    2. 用 LLM 决定下一步动作
    3. 执行动作(调用工具、API、代码)
    4. 观察结果
    5. 更新状态

步骤 2 的大脑就是 LLM — 根据目前情况决定下一步做什么。步骤 3 的「工具」是真的:发 Slack 消息、查数据库、抓网页、跑一段 Python、写文件。Anthropic、OpenAI、Google 的现代 LLM 都支持 tool use(又叫 function calling) — 你描述工具的输入 schema,模型自己决定何时要调用。

简单例子:帮你研究竞品的 agent。

  1. 目标:「帮我写一页关于 Mistral 的 brief。」
  2. LLM 决定:「先搜索网络。」调用 search_web("Mistral AI")
  3. 拿到 10 个结果。LLM 挑出最有用的 3 个,逐一 fetch_page(url)
  4. 读完三页,LLM 决定「信息够了,开始写」。生出 markdown。
  5. 完成。

整个 pattern 就这样。同一个骨架放大就是写 code 的 agent(Cursor composer、Claude Code)、客服 agent、研究 agent 等等。

Agent 跟 chatbot 差在哪

Chatbot 是单次 LLM 调用,你问、它答、结束。

Agent 多了三件事:

**工具(tools)。**它会做事不只会说。Cursor 能改你的文件,Claude Code 能跑 shell,Operator 能点网页。可用的工具集就定义了这个 agent 是什么。

**循环(loop)。**Agent 自己决定何时结束。Chatbot 跑一轮,agent 可能跑 50 轮才完成任务。每一轮它读刚才发生的事、挑下一步、执行。

**跨步骤的记忆。**Agent 累积中的 context — 「我试过什么、什么有效」 — 会反馈到每次新决策。所以 agent 的 prompt + context 管理才这么重要,没做好它会忘记试过什么、然后永远绕圈。

2026 年 agent 为什么还是不稳

吹捧了一年多,大多数 agent 在 production 还是会坏。核心问题:错误会叠加。

如果每一步成功率 95%,10 步任务的整体成功率只剩 ~60%(0.95^10)。50 步任务只剩 7%。多步骤 agent 要么每一步可靠度更高、要么有检测 + 恢复错误的机制。

真正能跑的 agent 都有防线:

  • 验证步骤 — 动作做完后检查真的成功了吗。
  • 步数上限 — 例如最多跑 20 圈,避免钱爆掉跟无穷循环。
  • Human-in-the-loop — 不可逆的动作(发邮件、花钱、删数据)停下来确认。
  • 专用工具 — 领域特定的工具(例如 Cursor 的文件编辑原语)减少出错面积。

2026 年真实在用的 agent 产品

真的在做事的这几类:

  • 写 code 的 agent — Cursor composer、Claude Code、Windsurf。改你 repo 里的 code、跑测试、迭代。最成熟的类别。
  • 网页操作 agent — OpenAI Operator、Anthropic 的 computer use。浏览、点击、填表单。对重复性网页工作有用,但还是慢、容易坏。
  • 研究 agent — Perplexity Pro deep research、Claude research mode、Gemini Deep Research。搜索、阅读、整合多来源 brief。
  • 垂直 agent — 销售(Clay、Outreach)、招聘(Mercor)、客服(Decagon、Sierra)。限缩在窄领域,所以 work。
  • 个人事务 agent — 订位、排日程、跑腿。大多是 demo,还不稳。

规律:窄、工具好的 agent 会 work;什么都做的「万能 agent」目前还不行。

什么时候不要用 agent

  • **任务一个 prompt 就解了。**如果单次 LLM 调用就能写出答案,就用单次。多包一层 agent loop 只是更贵 + 更多失败模式。
  • **错了无法恢复的场合。**发邮件、扣钱、删文件、动 production 系统,没有逐动作的人类批准就不要让 agent 自己做。
  • **没有 eval。**没办法量测「agent 做对了吗」,你就改不动它。先弄个小型测试集,20 个示例都好。
  • **每次任务的成本不划算。**循环 30 圈的 agent 一次可能 $0.50-$5。确认这个钱比替代方案(人、简单工具、或一次手做)便宜。

从哪里开始

如果你想自己做一个,从这个起手:

  1. 一个清楚、窄的任务(「给 CRM 记录,帮我拟一封 follow-up」)
  2. 一组小、定义明确的工具(3-5 个,有 schema)
  3. 步数上限(最多 10 圈)
  4. 每一步都记 log,坏了才能 debug
  5. 对外动作都要 human-in-the-loop 确认

LangGraph、Mastra、CrewAI 这些框架给你 scaffolding,但第一版用 plain Python 循环 + Claude tool-use API,常常更清楚。

延伸阅读

  • 什么是 tool use / function calling
  • 什么是 MCP
  • 从零做一个 agent loop(不用框架)
  • Debug 一个怪怪的多步骤 agent
  • 怎么挑 agent 框架(LangGraph vs CrewAI vs Mastra)

最后更新: 2026-04-29

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more

什么是 AI agent?跟 chatbot 差在哪? · BuilderWorld