Google 發表 Gemini 3,深度 agent loop

Google DeepMind 今天公告 Gemini 3,2.5 家族的接班版本。重點不是單一跑分,而是叫做「Deep Agent」的新模式 — 模型可以規劃、執行、自我評估、跨 session 繼續做下去,任務時長從以前的分鐘級拉到小時到天。

隨發布的技術論文描述了一個連續工具呼叫的 loop,結構化記憶 checkpoint 寫到 Google Cloud 後端的暫存區。重點是模型維護一份自己對「哪些子目標已完成、哪些還沒」的 self-model,直接針對「agent 跑到一半忘記目標」這個老 bug 下手。Google 展示了 36 小時的資料分析任務跟跨日的軟體重構,兩個都有人類 checkpoint,不是全自動。

實務上的問號是可靠度。Anthropic 跟 OpenAI 都發過研究指出長時序 agent 會「複利失敗」— 早期小錯後面被放大。Google 說 Gemini 3 有一個學過的「verification head」會抓住這類錯誤,但第三方重現要好幾週。如果聲稱站得住,「agent」這個產品類別的定義就要重寫。