世界模型迈向多人,24FPS实时

今日概览

世界模型从单机版升级到联机:Gamma-World让多个玩家/机器人在共享空间里各自下指令,靠排列对称编码和线性注意力把「加玩家」的成本从平方级压下来,2人训练直接泛化到4人、还跑到24FPS实时。
不靠更强的老师也能self-improve:DenoiseRL不引入任何外部监督,而是让模型从弱模型留下的带噪失败前缀里学着恢复,把失败本身变成优化信号。
给具身VLM补上「看深浅」的能力:GEM在预训练阶段加一个深度图生成任务,用生成式监督把空间-物理先验内化进去,而非纯文本对齐后再补。
第一次能指着说记忆坏在哪一步:MemTrace把memory pipeline拆成可执行的「记忆演化图」,逐层归因定位信息丢失与检索错位,归因信号还能反过来驱动prompt纠错。

重点关注

01 视频生成世界模型从单机版升级到了真·联机

交互式世界模型一直是单人游戏：一个控制信号推一帧未来，画面里只有「你」在动。Gamma-World把这件事推到了联机场景——多个玩家、机器人或具身agent同时在一个共享空间里各自下指令，画面要对所有人的动作都做出一致响应。难点在于设计约束彻底变了：每个agent得独立可控、彼此对称（谁是1号谁是2号不能影响结果）、还得算得快。它的核心招数有两个：一是Simplex Rotary Agent Encoding，把每个agent摆成正单纯形的一个顶点来编码身份，零额外参数、天然排列对称，不用为每个槽位学一套身份；二是Sparse Hub Attention，用可学习的hub token做中转，把agent之间的注意力开销从平方级压到线性。更关键的是它能从2人直接泛化到4人而不用重新训练，还蒸馏出一个因果学生模型跑到24FPS的实时生成。356个upvote的热度，说明做交互式生成的人都嗅到了这个方向。

世界模型正从单控制信号走向多agent联机，是交互式生成下一个值得押注的方向排列对称+线性注意力的设计让「加玩家」不再是平方级成本，扩展性是真问题被认真解决了2人训练泛化到4人且24FPS实时，对做多人游戏/多机器人仿真的团队有直接参考价值。

原文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

02 推理不靠更强的老师,让模型从自己的烂答案里学

主流的推理RL有个隐形天花板:要么蒸馏一个更强的teacher,要么人工curate一批难题当监督——能力上限被「你找不找得到更强的来源」卡死。DenoiseRL反着来:不引入任何外部监督,而是把弱模型留下的失败推理(带噪前缀)当成优化对象,训练模型从这些半截的错误里恢复出正确答案。这么做的好处是失败本身变成了学习信号,不用再花钱做数据筛选,也不用等一个更强的模型出现。论文称在数学和通用推理benchmark上稳定超过强on-policy RL基线,且随着训练难度上升,模型的自我纠错行为反而更明显——这个趋势比单一指标更值得注意。不过只看摘要还无法判断「带噪前缀」具体怎么构造、恢复信号会不会引入新的偏差,需要看全文确认。

监督天花板从「能否找到更强的老师」转向「能否充分利用自己的失败」,对没有强teacher可蒸馏的团队是条可走的路失败轨迹被当成训练资产而非废料,可能省掉一大块数据curation成本自纠错能力随难度增强是个好信号,但带噪前缀的构造细节和潜在偏差要看全文才能下结论

原文:DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes

03 机器人让模型学会「看深浅」,而不只是「看懂图」

机器人伸手去抓桌上一个物体,真正卡住它的往往不是「认不认得这是个杯子」,而是这个物体离手有多远、和旁边东西在空间里怎么咬合——这类低层物理信息,标准的文本预训练根本没教。GEM的思路是在预训练阶段直接加一个深度图生成任务,让模型在学语义对齐的同时被迫把空间-物理先验内化进去,而不是事后再补。团队同时放出了GEM-4M数据集,把grounding、推理、规划数据和高质量深度监督配成对,部署出来的GEM-VLA动作模型在仿真和真机评测里执行能力都有明显提升。值得留意的是方向而非分数:它代表预训练范式从纯文本对齐往生成式监督灌注物理先验的转变,这比又一个刷benchmark的VLA更有信号意义,不过真机泛化到底有多稳还得看更多场景的复现。

具身VLM的核心gap不在语义理解而在低层空间-物理知识,深度生成是一种补法生成式监督可能成为机器人预训练的新范式,做具身的团队值得跟踪数据集和代码已开源,但真机泛化能力需更多独立复现才能下结论

原文:GEM: Generative Supervision Helps Embodied Intelligence

04 Agent 记忆系统坏掉了,但没人说得清坏在哪一步

记忆系统坏掉时,最难受的不是它坏,而是你根本指不出是哪一步坏的:信息到底在合成、传播还是检索环节被损坏的,基本是个黑箱,debug全靠猜。MemTrace的思路是把整条memory pipeline拆成一张可执行的「记忆演化图」,每个操作节点都能追踪信息流向,再用一个自动归因方法逐层回溯子图,定位到具体是哪一步出了问题。团队还建了MemTraceBench,覆盖Long-Context、RAG、Mem0、EverMemOS等代表性系统,发现记忆失败不是随机的,而是集中在信息丢失和检索错位这类操作级问题上。更实用的是,这些细粒度归因信号能反过来指导prompt优化,形成自动纠错的闭环,端到端任务表现最高提升7.62%——提升幅度不算惊艳,但能指着说「记忆坏在这一步」本身就是工程上的实质进展。

记忆系统的失败是系统性的、集中在信息丢失与检索错位,而非随机噪声,这改变了debug的入手方向归因信号可闭环驱动prompt优化,意味着排查工具也能顺带变成纠错工具正在搭memory/RAG的团队值得关注其开源实现,看能否接入自己的pipeline做溯源。

原文：MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

也值得关注

self-improving搜索换了个搜法 训练优化双向进化搜索,跳出best-of-N和树搜索只在高概率区域autoregressive扩展的局限。链接

小agent按自己的弱点做特化 Agent小型computer-use agent专挑自身领域失败点训练,比无脑合成大规模数据有效得多。链接

文生视频效率组合拳 推理加速稀疏注意力+HiF8量化+RL三件套,对冲full attention的二次方开销。链接

改技能不再靠拍脑袋 AgentSkillGrad把agent skill的优化formalize成类梯度下降框架,替代启发式reflection。链接

思考模式切换的真实账单 评测统一口径对比hybrid-reasoning模型的切换策略,把answer quality和推理成本摆到一起算。链接

RL进了主动推荐场景 训练优化修正path-level reward导致的policy gradient估计偏差。链接

工具调用评测加上时间维度 AgentAsyncTool把工具响应延迟和多任务并发纳入考量,评异步函数调用能力。链接

情感支持对话也能自我演化技能 Agentskill-centric框架换来可解释性和可持续改进。链接

今日观察

今天至少三篇在做同一件反直觉的事:监督信号的来源被反转了。过去的默认路径是「想变强,先找个更强的来蒸馏」——要么curate一个teacher,要么堆更高质量的标注。今天这几篇却把箭头掉了个头,从模型自己的失败和弱点里取信号:DenoiseRL拿弱模型留下的带噪失败前缀当优化对象,训练模型从烂答案里恢复;Learn-from-Weaknesses专挑小agent的领域失败点做特化,而不是无脑合成数据;SkillGrad干脆把「哪个技能不好用」形式化成可优化的梯度。三者都在回答同一个问题——「哪里做错了」如何直接变成「从哪里学」,而不必再依赖一个更强的外部来源。这件事的实际价值不在某个benchmark分数,而在它松开了一个长期约束:当你没有更强的teacher可蒸馏、也没预算堆标注时,你手上跑模型时积攒的失败轨迹,本身就是没被用起来的监督。

具体可以做的:翻一下自己手头任务里那些被当成废料丢掉的失败case(报错的agent轨迹、被拒的生成、错误的推理链),挑一类量最大的,试着把「从这个失败恢复到正确」设成一个训练或评测目标,看能不能不引入更强模型就拿到增量——哪怕只是先量化一下这部分数据有多少。