TODAY · 今日 AI

智譜揭 GLM-5「降智」根因:KV Cache 與 HiCache 修正

智譜發長文公開 GLM-5 在億級 Coding Agent 調用下出現亂碼、重複生成與罕見字的根因。工程團隊找出兩個問題:PD 拆分架構下的 KV Cache 跨請求競態條件、HiCache 的非同步載入時序錯誤。修正後異常率從萬分之十幾降到萬分之三。另外推出 LayerSplit 把 KV Cache 分層存到不同 GPU,4 萬到 12 萬 token 長上下文吞吐提升 10% 到 132%。對讀者意義:模型「變笨」常常不是模型本身的事,而是推理基礎設施在放大競態條件。

發佈日期: 2026-05-03

登入以收藏

來源

量子位:智谱公布「降智」的秘密zh-CN

標籤

zhipuglm-5inferencekv-cacheinfrastructure