今日概览
- DeepSeek-V4把「索引+稀疏」押进主架构:解码不再让完整KV cache常驻显存,而是用Neural Memory Indexer按需取相关历史片段,长上下文评测里KV占用压到13.5%、下游精度还微涨0.6个百分点。
- 视频世界模型的记忆搬进latent,省掉像素往返——Mirage不再在RGB空间建显式点云,端到端生成快10.57倍、显存降到1/55,同时在WorldScore上拿到SOTA。
- 看图能答对,动手就不行,SpatialWorld让agent在第一视角环境里边操作边推理空间关系,最强模型平均成功率也只有17.4%,瓶颈出在主动探索和长程规划而非单步推理。
- 模仿学习崩在分布外,未必要靠更大的策略网络。DARP在推理时检索专家示范,并显式建模查询与邻居的差异向量,多个域上比标准行为克隆提升15–46%。
重点关注
01 推理加速 DeepSeek把「先索引再注意」押进了V4主架构
DeepSeek-V4这次没有再加一个稀疏注意力的变体,而是把一套「前瞻式稀疏注意力」(LSA)直接搬进了主架构:解码时不再让完整KV cache常驻显存,而是用一个神经记忆索引器(Neural Memory Indexer)预测接下来真正会用到的历史片段,按需把相关的KV chunk取进显存。这套机制最务实的一点是训练方式——索引器被设计成标准的双编码器,用现成的检索训练框架独立训练,全程不需要把庞大的主干模型加载进GPU,等于把「训一个好索引」和「训一个好模型」解耦开了。效果上,长上下文评测里平均KV cache占用压到全量基线的13.5%,下游精度基本持平甚至微涨0.6个百分点;在500K的极端长度下显存开销砍掉九成以上还没把推理能力搞崩。需要保留判断的是,abstract只给了report级别的描述,索引器的召回质量、对真正依赖长程记忆任务的精度损失,都得看全文和实测才能下结论。但对从业者来说,真正的信号不是这几个数字,而是DeepSeek愿意把「索引+稀疏」押进V4的主路径——如果这条路走通,长上下文serving的成本结构可能要从「显存堆KV」换成「算力跑索引」。
原文:FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention
02 视频生成 让世界模型「记住」场景,为什么不该绕道像素空间
视频世界模型要让镜头转一圈再转回来时,房间还是同一个房间,靠的是一份跨帧的3D记忆。主流做法是在RGB像素空间里建显式点云:每生成几帧就渲染、再用VAE编码塞回模型——既慢,又因为来回穿越像素空间丢掉了latent里本就学好的特征。Mirage的思路是把这份记忆直接放进扩散模型的latent空间,用深度引导把latent token抬升到3D存成一个持久cache,查询时直接在latent空间做几何变换合成新视角,整条链路不再回到像素。结果是端到端生成快10.57倍、显存占用降到原来的1/55,同时在WorldScore上拿到SOTA。这不是又一篇靠稀疏化省显存的工作,省下来的开销来自删掉了「编码-渲染」这个本不必要的往返——对做可控视频生成和世界模型的团队,这是个可以直接借鉴的工程改法。
原文:Latent Spatial Memory for Video World Models
03 评测 看图能答对,动手就不行:空间推理的真实差距
多模态模型在静态VQA上答空间题答得不错,但那是「被动看图」——题目把视角和信息都喂到位了。SpatialWorld换了个测法:让agent在第一视角、信息不全的环境里边操作边推理,自己主动去看、去探索,再用文字接口表达动作。结果是同一批模型在交互任务上集体失速,最强的模型平均成功率也只到17.4%,说明「答得对」和「做得到」之间隔着一条没人补上的鸿沟。更有意思的是它把失败拆开了看:很多模型不是不会推理,而是栽在主动探索和长程规划上——成功率和执行效率之间有明显错位。对做具身和agent的团队来说,这个差距比分数本身更值得盯。
原文:SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks
04 机器人 模仿学习崩在分布外,不一定要靠更大的策略网络
行为克隆有个老毛病:部署时误差会累积,机器人一旦走到训练没覆盖的状态就容易崩。DARP的思路不是把策略网络做得更大更强,而是在推理时把专家示范数据重新检索回来用——属于半参数化路线。但它跟普通的「找最近邻、抄它的动作」不一样:它显式建模查询状态和邻居状态之间的相对差异向量(difference-aware),让模型学会「邻居当时这么做,而我现在的状态偏了这么多,动作该怎么相应调整」,而不是照搬。论文报告在连续控制和机器人操作等多个域上比标准行为克隆提升15–46%,且不需要额外采数据、在线专家反馈或任务先验。代价是推理时要带着示范集做检索,这套取舍对做机器人策略的团队值得跟纯参数化方案对比一下。
原文:Difference-Aware Retrieval Policies for Imitation Learning

也值得关注
今日观察
今天有两篇论文乍看八竿子打不着——FlashMemory-DeepSeek-V4在啃LLM超长上下文serving的显存瓶颈,Latent Spatial Memory在啃视频世界模型的渲染开销——但只盯着它们各自的痛点措辞,会错过一个更底层的共同点:两边都在拆同一种东西,一份「显式存储」的记忆。V4要扔掉的是常驻显存的完整KV cache,换成Neural Memory Indexer按需索引;Mirage要扔掉的是RGB空间里反复渲染再VAE编码的点云,换成latent空间的持久3D cache。一个喊显存太贵,一个喊渲染太慢,可矛头其实都指向「把记忆显式地存在模型外面」这件事——它既贵又有损。两者给出的解法也是同一招:让记忆活在模型已经学好的latent表示里,不再来回穿越那层昂贵的显式空间。如果你手上有任何带「记忆/缓存」的系统,不妨拿这个视角自查一遍:你那份记忆是不是也在某个显式空间里被反复编解码、来回搬运?能不能让它直接住进模型的latent里,省掉这趟往返。