今日概览
- 长视频理解不必逐帧全看:OmniAgent把感知建模成可自主决策的推理动作,7B agent在LVBench做到50.5%,反超大10倍的Qwen2.5-VL-72B,还表现出正向test-time scaling。
- 多模态当policy的瓶颈在记忆而非决策:RNG-Bench用两个游戏把「重建看不见的观测并据此行动」单独隔离,发现前沿模型的残余错误大多来自遗忘早先观测,且可通过微调缓解。
- uniform扩散语言模型补上了缺失的拼图:Sumi是首个上规模(7B、1.5T token)从零预训的全开放uniform扩散模型,权重、配方、数据配比全放出,给社区一个真正能study的对象。
- AI科学家的每一步推理都留下可查证据:Xcientist把文献证据、想法、计划、消融全externalize成契约约束的artifact,点出了「claim drift」这一只看产物发现不了的失败模式。
- 用户模拟器的目标从「像那句话」改成「像一个人」:Turing-RL用图灵测试式的判别奖励替代相似度匹配,在对话和论坛两个场景上稳定优于匹配类基线。
重点关注
01 多模态 长视频理解不必逐帧全看,让模型自己决定看哪里
长视频理解一直被「watch-it-all」拖累:不管问题难易,每一帧都均匀处理,算力随视频时长线性增长。OmniAgent换了个框架——把视频理解建模成POMDP下的「观察-思考-行动」循环,让模型按需执行动作,只把关键的音视频线索蒸馏进一份持续的文本记忆里,从而把推理复杂度和原始视频时长解耦开。训练上分两步:先用Agentic SFT通过best-of-N轨迹合成把「主动感知」的能力引导出来,再用带TAURA的Agentic RL,靠每一轮的熵把信用分配引向那些真正有发现的关键步骤。结果上,7B的agent在LVBench上做到50.5%,超过了大10倍的Qwen2.5-VL-72B的47.3%,并且表现出正向的test-time scaling——推理轮数越多效果越好。值得留意的是,论文强调它和依赖global pre-scanning的交互式方案不同,后者的context成本仍随视频长度增长,但主动性究竟是真省了开销,还是把开销从「看帧」挪到了「多轮推理」,需要看全文的实际延迟和token消耗才能下结论。
原文:Native Active Perception as Reasoning for Omni-Modal Understanding
02 评测 把多模态模型当 policy 用,短板不在决策而在记忆
把多模态大模型接成闭环策略时,很多动作其实要基于「已经划出屏幕、当前看不见的观测」来做——而这一项能力一直被现有评测掩盖着。RNG-Bench做的事很克制:用两个游戏(记忆翻牌、第一人称3D迷宫)把「在多步交互中重建不可见观测并据此行动」单独隔离出来,再用Memory Gap这个指标把「忘了」和「决策差」拆开。结论值得注意——前沿MLLM在最难配置(单局约128K上下文、350张图)上远未饱和,而且残余错误大多来自遗忘早先的观测,不是决策本身不行。换句话说,瓶颈不在推理能力,而在长时记忆的保持。作者还验证了用最优策略rollout微调Qwen3.5-9B能改善表现,并迁移到其他benchmark而不损伤通用能力,说明这是可训练的、不是模型的硬天花板。
03 模型架构 为什么扩散语言模型里偏偏少了这一块拼图?
语言模型的路线图上,自回归(一个一个往后预测token)和masked diffusion(先盖住一部分再填空)社区都有可研究、可在其上继续搭建的开源大模型,唯独uniform diffusion——允许任意token在任意step被更新,理论上生成更灵活——一个能上规模的都没有。Sumi补的就是这块空白:一个7B、从零预训、吃了1.5T token的全开放uniform扩散模型,权重、checkpoint、完整训练配方连数据配比都一并放出。它在知识、推理、代码benchmark上和同等token预算的自回归模型打平,在常识任务上偏弱(团队归因于教育向的数据配比)。但它的价值本来就不在刷榜,而在于第一次给了社区一个真正能拿来study扩展规律、生成动态和可控性的对象。
原文:Sumi: Open Uniform Diffusion Language Model from Scratch
04 Agent 让AI科学家的每一步推理都留下可查的证据
自动化科研有个隐患:从「参考了哪些证据」到「为什么这么设计实验」再到「最终结论」,这条推理链大多藏在模型inference内部,你只能看到产出,看不到它怎么想的。Xcientist的做法是把这条链外化——文献证据、想法状态、实现计划、消融记录、修复轨迹全部存成持久化、有契约约束(contract-governed)的artifact,每个机制都能追溯到它的证据来源。它点出一个具体的失败模式叫claim drift:代码改着改着,能跑的产物已经不再支撑当初声称的机制了,而这种漂移在只看最终结果时根本发现不了。论文在三个领域(记忆系统、交通预测、物理信息神经网络)验证了轨迹的可追溯性。值得保留的疑问是:这套harness究竟让科研推理更可靠了,还是主要把复杂度从模型搬到了流程编排上——可审计是真价值,但代价多大需要看全文确认。
原文:Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness
05 训练优化 把「像不像那句话」改成「像不像一个人」
训练用户模拟器(模拟真人用户的LLM)的常规做法,是逼模型去匹配某一条标准回复——要么最大化它的log概率,要么用相似度打分。问题是真人面对同一情境本来就有很多种说法,强行对齐单一答案等于把「像一个人」窄化成了「复刻这一句」。Turing-RL换了目标函数:用一个LLM裁判做图灵测试式的判别奖励,评估生成的回复在用户历史背景下「能不能被分辨出是模拟的」,模型学的是产出真假难辨的回复,而不是贴近某条ground truth。在对话聊天和Reddit论坛讨论两个场景里,这套方法在自动评测和人工评测上都稳定优于匹配类基线。具体提升幅度和裁判会不会被刷的问题需要看全文确认,但目标函数的这次校准方向,对做个性化评测和agent助手训练的人是对的。

也值得关注
今日观察
把今天的OmniAgent(2606.19341)和RNG-Bench(2606.19338)放一起看,会发现两篇在拆同一个默认假设——「多模态模型面对的是完整、当下可见的状态」。前者反对「逐帧全看」,主张主动挑该看什么;后者反对「全状态暴露」,要求模型重建已经看不见的观测。一个解决「别全看,要会选」,一个解决「看不全,要会补」。合起来指向的是同一件事:当多模态大模型被当成闭环policy部署,能力边界正在从「看得准不准」转向「怎么在部分可观测下管理有限的观测预算」。这对做视频agent、长上下文多模态系统的人有直接的设计含义——别再默认上下文里躺着全部该看的东西。
具体可以做一件事:拿你正在跑的多模态agent,挑几条失败case,按RNG-Bench的Memory Gap思路手动归因一下,看错误到底出在「没看到」、「忘了看过的」还是「看到了但决策错」——这三类的解法完全不同,先分清再投入,比直接换更大的模型更省。