TODAY · 今日 AI

智谱公开 GLM-5 推理「降智」根因:KV Cache 竞争条件

智谱工程团队在自家技术博客公开 GLM-5 系列在 coding agent 高负载时遇到的三类异常:乱码、复读、生僻字。根因追到 PD 分离架构下 KV Cache 写入的竞争条件,以及 HiCache 载入跟运算重叠的时序问题。解法是强制同步 + 重新设计 LayerSplit 分层存储。智谱原话:「我们的推理基础设施正承受着前所未有的压力,每天都要服务数亿次 Coding Agent 调用」。对中文圈意义:第一手公开的中国模型厂生产级推理排查记录,任何自架大模型推理服务的团队都该读。

发布日期: 2026-05-05

登入以收藏

来源

量子位轉述zh-CN

标签

zhipuglm-5inferencekv-cacheproduction