V4把KV压到13.5%，视频记忆快10倍

今日概览

DeepSeek-V4把「索引+稀疏」押进主架构：解码不再让完整KV cache常驻显存，而是用Neural Memory Indexer按需取相关历史片段，长上下文评测里KV占用压到13.5%、下游精度还微涨0.6个百分点。
视频世界模型的记忆搬进latent，省掉像素往返——Mirage不再在RGB空间建显式点云，端到端生成快10.57倍、显存降到1/55，同时在WorldScore上拿到SOTA。
看图能答对，动手就不行，SpatialWorld让agent在第一视角环境里边操作边推理空间关系，最强模型平均成功率也只有17.4%，瓶颈出在主动探索和长程规划而非单步推理。
模仿学习崩在分布外，未必要靠更大的策略网络。DARP在推理时检索专家示范，并显式建模查询与邻居的差异向量，多个域上比标准行为克隆提升15–46%。

重点关注

01 推理加速 DeepSeek把「先索引再注意」押进了V4主架构

DeepSeek-V4这次没有再加一个稀疏注意力的变体，而是把一套「前瞻式稀疏注意力」（LSA）直接搬进了主架构：解码时不再让完整KV cache常驻显存，而是用一个神经记忆索引器（Neural Memory Indexer）预测接下来真正会用到的历史片段，按需把相关的KV chunk取进显存。这套机制最务实的一点是训练方式——索引器被设计成标准的双编码器，用现成的检索训练框架独立训练，全程不需要把庞大的主干模型加载进GPU，等于把「训一个好索引」和「训一个好模型」解耦开了。效果上，长上下文评测里平均KV cache占用压到全量基线的13.5%，下游精度基本持平甚至微涨0.6个百分点；在500K的极端长度下显存开销砍掉九成以上还没把推理能力搞崩。需要保留判断的是，abstract只给了report级别的描述，索引器的召回质量、对真正依赖长程记忆任务的精度损失，都得看全文和实测才能下结论。但对从业者来说，真正的信号不是这几个数字，而是DeepSeek愿意把「索引+稀疏」押进V4的主路径——如果这条路走通，长上下文serving的成本结构可能要从「显存堆KV」换成「算力跑索引」。

长上下文serving的瓶颈正从KV cache显存转向索引召回质量，成本模型可能要重算索引器与主干解耦训练是关键工程信号——这套机制可复用、可单独迭代，不绑死单个模型13.5%占用和+0.6%精度是report级口径，召回漏检对长程任务的真实影响要等实测

原文：FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention

02 视频生成让世界模型「记住」场景，为什么不该绕道像素空间

视频世界模型要让镜头转一圈再转回来时，房间还是同一个房间，靠的是一份跨帧的3D记忆。主流做法是在RGB像素空间里建显式点云：每生成几帧就渲染、再用VAE编码塞回模型——既慢，又因为来回穿越像素空间丢掉了latent里本就学好的特征。Mirage的思路是把这份记忆直接放进扩散模型的latent空间，用深度引导把latent token抬升到3D存成一个持久cache，查询时直接在latent空间做几何变换合成新视角，整条链路不再回到像素。结果是端到端生成快10.57倍、显存占用降到原来的1/55，同时在WorldScore上拿到SOTA。这不是又一篇靠稀疏化省显存的工作，省下来的开销来自删掉了「编码-渲染」这个本不必要的往返——对做可控视频生成和世界模型的团队，这是个可以直接借鉴的工程改法。

跨帧3D一致性的瓶颈不只是显存，而是反复穿越像素空间的编解码往返把记忆留在latent空间能同时拿到10倍速度和55倍显存收益，且质量不降反升（WorldScore SOTA）微软出品、有代码、HF 58 upvotes，做世界模型的人值得跑一遍验证

原文：Latent Spatial Memory for Video World Models

03 评测看图能答对，动手就不行：空间推理的真实差距

多模态模型在静态VQA上答空间题答得不错，但那是「被动看图」——题目把视角和信息都喂到位了。SpatialWorld换了个测法：让agent在第一视角、信息不全的环境里边操作边推理，自己主动去看、去探索，再用文字接口表达动作。结果是同一批模型在交互任务上集体失速，最强的模型平均成功率也只到17.4%，说明「答得对」和「做得到」之间隔着一条没人补上的鸿沟。更有意思的是它把失败拆开了看：很多模型不是不会推理，而是栽在主动探索和长程规划上——成功率和执行效率之间有明显错位。对做具身和agent的团队来说，这个差距比分数本身更值得盯。

静态VQA测的是被动看图，测不出agent真要动手操作时的空间理解，两者差距很大当前模型的主要瓶颈在主动探索和长程规划，而非单步推理本身做具身/agent的团队可以用它定位自己系统到底卡在「看不到」还是「想不到」

原文：SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

04 机器人模仿学习崩在分布外，不一定要靠更大的策略网络

行为克隆有个老毛病：部署时误差会累积，机器人一旦走到训练没覆盖的状态就容易崩。DARP的思路不是把策略网络做得更大更强，而是在推理时把专家示范数据重新检索回来用——属于半参数化路线。但它跟普通的「找最近邻、抄它的动作」不一样：它显式建模查询状态和邻居状态之间的相对差异向量（difference-aware），让模型学会「邻居当时这么做，而我现在的状态偏了这么多，动作该怎么相应调整」，而不是照搬。论文报告在连续控制和机器人操作等多个域上比标准行为克隆提升15–46%，且不需要额外采数据、在线专家反馈或任务先验。代价是推理时要带着示范集做检索，这套取舍对做机器人策略的团队值得跟纯参数化方案对比一下。

检索式模仿学习是给行为克隆打鲁棒性补丁的低成本路线，不用重训更大的策略网络「差异感知」是关键，它建模查询与邻居的差异向量而非照搬最近邻动作，这决定了它能否真正泛化到分布外提升幅度15–46%看着可观，但要权衡推理时携带示范集做检索的开销，是否划算取决于部署场景。

原文：Difference-Aware Retrieval Policies for Imitation Learning

也值得关注

ToM后训练刷到99%，可能全靠捷径 推理任务里存在可被利用的捷径，这类post-training的能力提升要先打个问号。链接

safety judge太脆，扰动一下就翻车 安全对齐对prompt和rubric的微小变化很敏感，这篇用课程式训练让judge从「可靠」走向「有表达力」。链接

直译英文benchmark测不出文化语境 安全对齐多语言安全评测靠直译会丢掉本地语境，这篇按东亚/东南亚语境做文化适配的red-teaming。链接

差分隐私有理论保证，实际防护却存疑 安全对齐预训练数据的重叠让DP的隐私效果打折，这篇做实证基准检验真实防护力。链接

视频时序定位的RL推理常常浮于表面 多模态推理路径看着有理实则空洞，这篇做时序感知的推理优化让定位更准。链接

3D语义场景生成甩掉triplane 图像生成不再依赖triplane等复杂3D架构，用无条件diffusion做可编辑的语义occupancy，面向自动驾驶。链接

diffusion既会生成又是表示学习器 图像生成这两种能力的关系一直没说清，这篇用自监督视角去评估它的表示空间。链接

AI写论文的瓶颈从生成转向验证 AI for Science这篇用确定性的「完整性闸门」拦住编造的引用和对不上源表的数字。链接

84种数值格式的bit-exact一致性目录 推理加速FP8/BF16/MXFP4等格式跨加速器移植模型时，用它对照可防静默精度漂移。链接

污水比临床报告更早看见流感传播 AI for Science但污水不是干净的人群负担代理，这篇用贝叶斯选择性潜变量推断做「污水优先」的证据获取。链接

今日观察

今天有两篇论文乍看八竿子打不着——FlashMemory-DeepSeek-V4在啃LLM超长上下文serving的显存瓶颈，Latent Spatial Memory在啃视频世界模型的渲染开销——但只盯着它们各自的痛点措辞，会错过一个更底层的共同点：两边都在拆同一种东西，一份「显式存储」的记忆。V4要扔掉的是常驻显存的完整KV cache，换成Neural Memory Indexer按需索引；Mirage要扔掉的是RGB空间里反复渲染再VAE编码的点云，换成latent空间的持久3D cache。一个喊显存太贵，一个喊渲染太慢，可矛头其实都指向「把记忆显式地存在模型外面」这件事——它既贵又有损。两者给出的解法也是同一招：让记忆活在模型已经学好的latent表示里，不再来回穿越那层昂贵的显式空间。如果你手上有任何带「记忆/缓存」的系统，不妨拿这个视角自查一遍：你那份记忆是不是也在某个显式空间里被反复编解码、来回搬运？能不能让它直接住进模型的latent里，省掉这趟往返。