跳到内容

TODAY · 今日 AI

智谱揭 GLM-5「降智」根因:KV Cache 与 HiCache 修正

智谱发长文公开 GLM-5 在亿级 Coding Agent 调用下出现乱码、重复生成与罕见字的根因。工程团队找出两个问题:PD 拆分架构下的 KV Cache 跨请求竞态条件、HiCache 的异步加载时序错误。修正后异常率从万分之十几降到万分之三。另外推出 LayerSplit 把 KV Cache 分层存到不同 GPU,4 万到 12 万 token 长上下文吞吐提升 10% 到 132%。对读者意义:模型「变笨」常常不是模型本身的事,而是推理基础设施在放大竞态条件。

发布日期: 2026-05-03
登入以收藏

来源

标签

zhipuglm-5inferencekv-cacheinfrastructure

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more