TODAY · 今日 AI
智谱揭 GLM-5「降智」根因:KV Cache 与 HiCache 修正
智谱发长文公开 GLM-5 在亿级 Coding Agent 调用下出现乱码、重复生成与罕见字的根因。工程团队找出两个问题:PD 拆分架构下的 KV Cache 跨请求竞态条件、HiCache 的异步加载时序错误。修正后异常率从万分之十几降到万分之三。另外推出 LayerSplit 把 KV Cache 分层存到不同 GPU,4 万到 12 万 token 长上下文吞吐提升 10% 到 132%。对读者意义:模型「变笨」常常不是模型本身的事,而是推理基础设施在放大竞态条件。
发布日期: 2026-05-03
来源
- 量子位:智谱公布「降智」的秘密zh-CN
标签
zhipuglm-5inferencekv-cacheinfrastructure