跳到内容

TODAY · 今日 AI

DeepSeek V4 没收进 Engram,V4.5 已埋好伏笔

DeepSeek 和北大去年联合开源 Engram 知识查表模块,把静态知识检索和动态推理拆开,省显存又释放深层网络容量做更高阶推理。Engram-27B 在 MMLU、CMMLU、BBH、HumanEval、MATH 全项提升 3-5 分,Multi-Query NIAH 从 84.2% 跳到 97.0%。V4 技术报告没收进去,但后续三篇论文(CXL 内存池、无冲突热层、视觉 Tiny Engram)已经把路铺到 V4.5。

发布日期: 2026-05-04深度报道
登入以收藏

DeepSeek V4 上周发布,技术圈最常被讨论的不是它做了什么,而是它没做什么

去年中,DeepSeek 和北京大学联合开源 Engram——一个外挂在 transformer 上的知识查表模块,把死的事实(历史日期、API 签名、定理)从模型权重搬出来,改放可写入的记忆池。「能查的就别算」,在前向传播每一层动态决定要不要走检索路径。论文披露的数字很硬:Engram-27B 比同尺寸基准在 MMLU 提 3.4、CMMLU 提 4.0、BBH 提 5.0、HumanEval 提 3.0、MATH 提 2.4;Multi-Query NIAH 从 84.2% 直接拉到 97.0%——意思是长上下文中针对性检索的准确率接近天花板。

但 V4 技术报告完全没提 Engram。社区一开始以为是冷处理,后来才发现是预期内的工程取舍——V4 主打通用推理,Engram 还在从单机切片扩到跨机 CXL 内存池的阶段。

三篇后续论文补上了这个落差:CXL 内存池能跑到 512GB/s 带宽、端到端吞吐损失 5% 以内;无冲突热层实验解决多查询同时打到热条目的锁竞争;视觉 Tiny Engram 把同样概念拓展到图像分块检索。把这三块凑起来,V4.5 大概率会把 Engram 收进主线——这也是社区把「没收进去」叫遗憾的原因:不是设计失误,是时间没对上。

来源

标签

deepseekopen-sourceresearchengram

We use cookies

Anonymous analytics help us improve the site. You can opt out anytime. Learn more