Google DeepMind 今天公告 Gemini 3,2.5 家族的接班版本。重点不是单一跑分,而是叫做「Deep Agent」的新模式 — 模型可以规划、执行、自我评估、跨 session 继续做下去,任务时长从以前的分钟级拉到小时到天。
随发布的技术论文描述了一个连续工具呼叫的 loop,结构化记忆 checkpoint 写到 Google Cloud 后端的暂存区。重点是模型维护一份自己对「哪些子目标已完成、哪些还没」的 self-model,直接针对「agent 跑到一半忘记目标」这个老 bug 下手。Google 展示了 36 小时的资料分析任务跟跨日的软件重构,两个都有人类 checkpoint,不是全自动。
实务上的问号是可靠度。Anthropic 跟 OpenAI 都发过研究指出长时序 agent 会「复利失败」— 早期小错后面被放大。Google 说 Gemini 3 有一个学过的「verification head」会抓住这类错误,但第三方重现要好几周。如果声称站得住,「agent」这个产品类别的定义就要重写。