V4把KV压到13.5%,视频记忆快10倍

今日概览

  • DeepSeek-V4把「索引+稀疏」押进主架构:解码不再让完整KV cache常驻显存,而是用Neural Memory Indexer按需取相关历史片段,长上下文评测里KV占用压到13.5%、下游精度还微涨0.6个百分点。
  • 视频世界模型的记忆搬进latent,省掉像素往返——Mirage不再在RGB空间建显式点云,端到端生成快10.57倍、显存降到1/55,同时在WorldScore上拿到SOTA。
  • 看图能答对,动手就不行,SpatialWorld让agent在第一视角环境里边操作边推理空间关系,最强模型平均成功率也只有17.4%,瓶颈出在主动探索和长程规划而非单步推理。
  • 模仿学习崩在分布外,未必要靠更大的策略网络。DARP在推理时检索专家示范,并显式建模查询与邻居的差异向量,多个域上比标准行为克隆提升15–46%。

重点关注

01 推理加速 DeepSeek把「先索引再注意」押进了V4主架构

DeepSeek-V4这次没有再加一个稀疏注意力的变体,而是把一套「前瞻式稀疏注意力」(LSA)直接搬进了主架构:解码时不再让完整KV cache常驻显存,而是用一个神经记忆索引器(Neural Memory Indexer)预测接下来真正会用到的历史片段,按需把相关的KV chunk取进显存。这套机制最务实的一点是训练方式——索引器被设计成标准的双编码器,用现成的检索训练框架独立训练,全程不需要把庞大的主干模型加载进GPU,等于把「训一个好索引」和「训一个好模型」解耦开了。效果上,长上下文评测里平均KV cache占用压到全量基线的13.5%,下游精度基本持平甚至微涨0.6个百分点;在500K的极端长度下显存开销砍掉九成以上还没把推理能力搞崩。需要保留判断的是,abstract只给了report级别的描述,索引器的召回质量、对真正依赖长程记忆任务的精度损失,都得看全文和实测才能下结论。但对从业者来说,真正的信号不是这几个数字,而是DeepSeek愿意把「索引+稀疏」押进V4的主路径——如果这条路走通,长上下文serving的成本结构可能要从「显存堆KV」换成「算力跑索引」。

长上下文serving的瓶颈正从KV cache显存转向索引召回质量,成本模型可能要重算索引器与主干解耦训练是关键工程信号——这套机制可复用、可单独迭代,不绑死单个模型13.5%占用和+0.6%精度是report级口径,召回漏检对长程任务的真实影响要等实测

02 视频生成 让世界模型「记住」场景,为什么不该绕道像素空间

视频世界模型要让镜头转一圈再转回来时,房间还是同一个房间,靠的是一份跨帧的3D记忆。主流做法是在RGB像素空间里建显式点云:每生成几帧就渲染、再用VAE编码塞回模型——既慢,又因为来回穿越像素空间丢掉了latent里本就学好的特征。Mirage的思路是把这份记忆直接放进扩散模型的latent空间,用深度引导把latent token抬升到3D存成一个持久cache,查询时直接在latent空间做几何变换合成新视角,整条链路不再回到像素。结果是端到端生成快10.57倍、显存占用降到原来的1/55,同时在WorldScore上拿到SOTA。这不是又一篇靠稀疏化省显存的工作,省下来的开销来自删掉了「编码-渲染」这个本不必要的往返——对做可控视频生成和世界模型的团队,这是个可以直接借鉴的工程改法。

跨帧3D一致性的瓶颈不只是显存,而是反复穿越像素空间的编解码往返把记忆留在latent空间能同时拿到10倍速度和55倍显存收益,且质量不降反升(WorldScore SOTA)微软出品、有代码、HF 58 upvotes,做世界模型的人值得跑一遍验证

03 评测 看图能答对,动手就不行:空间推理的真实差距

多模态模型在静态VQA上答空间题答得不错,但那是「被动看图」——题目把视角和信息都喂到位了。SpatialWorld换了个测法:让agent在第一视角、信息不全的环境里边操作边推理,自己主动去看、去探索,再用文字接口表达动作。结果是同一批模型在交互任务上集体失速,最强的模型平均成功率也只到17.4%,说明「答得对」和「做得到」之间隔着一条没人补上的鸿沟。更有意思的是它把失败拆开了看:很多模型不是不会推理,而是栽在主动探索和长程规划上——成功率和执行效率之间有明显错位。对做具身和agent的团队来说,这个差距比分数本身更值得盯。

静态VQA测的是被动看图,测不出agent真要动手操作时的空间理解,两者差距很大当前模型的主要瓶颈在主动探索和长程规划,而非单步推理本身做具身/agent的团队可以用它定位自己系统到底卡在「看不到」还是「想不到」

04 机器人 模仿学习崩在分布外,不一定要靠更大的策略网络

行为克隆有个老毛病:部署时误差会累积,机器人一旦走到训练没覆盖的状态就容易崩。DARP的思路不是把策略网络做得更大更强,而是在推理时把专家示范数据重新检索回来用——属于半参数化路线。但它跟普通的「找最近邻、抄它的动作」不一样:它显式建模查询状态和邻居状态之间的相对差异向量(difference-aware),让模型学会「邻居当时这么做,而我现在的状态偏了这么多,动作该怎么相应调整」,而不是照搬。论文报告在连续控制和机器人操作等多个域上比标准行为克隆提升15–46%,且不需要额外采数据、在线专家反馈或任务先验。代价是推理时要带着示范集做检索,这套取舍对做机器人策略的团队值得跟纯参数化方案对比一下。

检索式模仿学习是给行为克隆打鲁棒性补丁的低成本路线,不用重训更大的策略网络「差异感知」是关键,它建模查询与邻居的差异向量而非照搬最近邻动作,这决定了它能否真正泛化到分布外提升幅度15–46%看着可观,但要权衡推理时携带示范集做检索的开销,是否划算取决于部署场景。
V4把KV压到13.5%,视频记忆快10倍

也值得关注

05
ToM后训练刷到99%,可能全靠捷径 推理任务里存在可被利用的捷径,这类post-training的能力提升要先打个问号。链接
06
safety judge太脆,扰动一下就翻车 安全对齐对prompt和rubric的微小变化很敏感,这篇用课程式训练让judge从「可靠」走向「有表达力」。链接
07
直译英文benchmark测不出文化语境 安全对齐多语言安全评测靠直译会丢掉本地语境,这篇按东亚/东南亚语境做文化适配的red-teaming。链接
08
差分隐私有理论保证,实际防护却存疑 安全对齐预训练数据的重叠让DP的隐私效果打折,这篇做实证基准检验真实防护力。链接
09
视频时序定位的RL推理常常浮于表面 多模态推理路径看着有理实则空洞,这篇做时序感知的推理优化让定位更准。链接
10
3D语义场景生成甩掉triplane 图像生成不再依赖triplane等复杂3D架构,用无条件diffusion做可编辑的语义occupancy,面向自动驾驶。链接
11
diffusion既会生成又是表示学习器 图像生成这两种能力的关系一直没说清,这篇用自监督视角去评估它的表示空间。链接
12
AI写论文的瓶颈从生成转向验证 AI for Science这篇用确定性的「完整性闸门」拦住编造的引用和对不上源表的数字。链接
13
84种数值格式的bit-exact一致性目录 推理加速FP8/BF16/MXFP4等格式跨加速器移植模型时,用它对照可防静默精度漂移。链接
14
污水比临床报告更早看见流感传播 AI for Science但污水不是干净的人群负担代理,这篇用贝叶斯选择性潜变量推断做「污水优先」的证据获取。链接

今日观察

今天有两篇论文乍看八竿子打不着——FlashMemory-DeepSeek-V4在啃LLM超长上下文serving的显存瓶颈,Latent Spatial Memory在啃视频世界模型的渲染开销——但只盯着它们各自的痛点措辞,会错过一个更底层的共同点:两边都在拆同一种东西,一份「显式存储」的记忆。V4要扔掉的是常驻显存的完整KV cache,换成Neural Memory Indexer按需索引;Mirage要扔掉的是RGB空间里反复渲染再VAE编码的点云,换成latent空间的持久3D cache。一个喊显存太贵,一个喊渲染太慢,可矛头其实都指向「把记忆显式地存在模型外面」这件事——它既贵又有损。两者给出的解法也是同一招:让记忆活在模型已经学好的latent表示里,不再来回穿越那层昂贵的显式空间。如果你手上有任何带「记忆/缓存」的系统,不妨拿这个视角自查一遍:你那份记忆是不是也在某个显式空间里被反复编解码、来回搬运?能不能让它直接住进模型的latent里,省掉这趟往返。