7B视频agent反超72B模型

今日概览

长视频理解不必逐帧全看：OmniAgent把感知建模成可自主决策的推理动作，7B agent在LVBench做到50.5%，反超大10倍的Qwen2.5-VL-72B，还表现出正向test-time scaling。
多模态当policy的瓶颈在记忆而非决策：RNG-Bench用两个游戏把「重建看不见的观测并据此行动」单独隔离，发现前沿模型的残余错误大多来自遗忘早先观测，且可通过微调缓解。
uniform扩散语言模型补上了缺失的拼图：Sumi是首个上规模（7B、1.5T token）从零预训的全开放uniform扩散模型，权重、配方、数据配比全放出，给社区一个真正能study的对象。
AI科学家的每一步推理都留下可查证据：Xcientist把文献证据、想法、计划、消融全externalize成契约约束的artifact，点出了「claim drift」这一只看产物发现不了的失败模式。
用户模拟器的目标从「像那句话」改成「像一个人」：Turing-RL用图灵测试式的判别奖励替代相似度匹配，在对话和论坛两个场景上稳定优于匹配类基线。

重点关注

01 多模态长视频理解不必逐帧全看，让模型自己决定看哪里

长视频理解一直被「watch-it-all」拖累：不管问题难易，每一帧都均匀处理，算力随视频时长线性增长。OmniAgent换了个框架——把视频理解建模成POMDP下的「观察-思考-行动」循环，让模型按需执行动作，只把关键的音视频线索蒸馏进一份持续的文本记忆里，从而把推理复杂度和原始视频时长解耦开。训练上分两步：先用Agentic SFT通过best-of-N轨迹合成把「主动感知」的能力引导出来，再用带TAURA的Agentic RL，靠每一轮的熵把信用分配引向那些真正有发现的关键步骤。结果上，7B的agent在LVBench上做到50.5%，超过了大10倍的Qwen2.5-VL-72B的47.3%，并且表现出正向的test-time scaling——推理轮数越多效果越好。值得留意的是,论文强调它和依赖global pre-scanning的交互式方案不同,后者的context成本仍随视频长度增长,但主动性究竟是真省了开销,还是把开销从「看帧」挪到了「多轮推理」,需要看全文的实际延迟和token消耗才能下结论。

把「感知」当成可由模型自主决策的推理动作，是长视频agent降本的一条实际路径7B超过72B说明这类任务上架构设计比单纯堆参数更关键，做video-RAG/长视频问答的团队值得跟进省开销的说法要警惕——多轮主动推理可能把成本从帧处理转移到推理轮数，落地前需自己测实际延迟和token账单

原文：Native Active Perception as Reasoning for Omni-Modal Understanding

02 评测把多模态模型当 policy 用，短板不在决策而在记忆

把多模态大模型接成闭环策略时，很多动作其实要基于「已经划出屏幕、当前看不见的观测」来做——而这一项能力一直被现有评测掩盖着。RNG-Bench做的事很克制：用两个游戏（记忆翻牌、第一人称3D迷宫）把「在多步交互中重建不可见观测并据此行动」单独隔离出来，再用Memory Gap这个指标把「忘了」和「决策差」拆开。结论值得注意——前沿MLLM在最难配置（单局约128K上下文、350张图）上远未饱和，而且残余错误大多来自遗忘早先的观测，不是决策本身不行。换句话说，瓶颈不在推理能力，而在长时记忆的保持。作者还验证了用最优策略rollout微调Qwen3.5-9B能改善表现，并迁移到其他benchmark而不损伤通用能力，说明这是可训练的、不是模型的硬天花板。

把多模态模型当 agent/policy 用时，真正的瓶颈可能是「记不住看过的东西」而非决策Memory Gap 指标把遗忘和决策差拆开，方便定位问题出在哪一环这类记忆短板可通过针对性微调缓解，且不牺牲通用能力，对做闭环 agent 的团队是个可操作信号。

原文：Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

03 模型架构为什么扩散语言模型里偏偏少了这一块拼图？

语言模型的路线图上，自回归（一个一个往后预测token）和masked diffusion（先盖住一部分再填空）社区都有可研究、可在其上继续搭建的开源大模型，唯独uniform diffusion——允许任意token在任意step被更新，理论上生成更灵活——一个能上规模的都没有。Sumi补的就是这块空白：一个7B、从零预训、吃了1.5T token的全开放uniform扩散模型，权重、checkpoint、完整训练配方连数据配比都一并放出。它在知识、推理、代码benchmark上和同等token预算的自回归模型打平，在常识任务上偏弱（团队归因于教育向的数据配比）。但它的价值本来就不在刷榜，而在于第一次给了社区一个真正能拿来study扩展规律、生成动态和可控性的对象。

uniform diffusion此前缺一个上规模的开源参照系，Sumi填上了这块拼图研究扩散语言模型路线的团队现在有了可复现的7B基线和完整数据配方常识任务偏弱更像数据配比问题而非架构上限，值得后续验证。

原文：Sumi: Open Uniform Diffusion Language Model from Scratch

04 Agent 让AI科学家的每一步推理都留下可查的证据

自动化科研有个隐患：从「参考了哪些证据」到「为什么这么设计实验」再到「最终结论」，这条推理链大多藏在模型inference内部，你只能看到产出，看不到它怎么想的。Xcientist的做法是把这条链外化——文献证据、想法状态、实现计划、消融记录、修复轨迹全部存成持久化、有契约约束（contract-governed）的artifact，每个机制都能追溯到它的证据来源。它点出一个具体的失败模式叫claim drift：代码改着改着，能跑的产物已经不再支撑当初声称的机制了，而这种漂移在只看最终结果时根本发现不了。论文在三个领域（记忆系统、交通预测、物理信息神经网络）验证了轨迹的可追溯性。值得保留的疑问是：这套harness究竟让科研推理更可靠了，还是主要把复杂度从模型搬到了流程编排上——可审计是真价值，但代价多大需要看全文确认。

AI科学家的评估标准正在从「最终产物好不好」转向「推理过程能不能被审计追溯」claim drift是个值得记住的概念——自动化流水线里产物和声称的机制会悄悄脱节做AI-for-science工具的团队值得关注这种artifact外化思路，但要权衡它增加的流程编排成本

原文：Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

05 训练优化把「像不像那句话」改成「像不像一个人」

训练用户模拟器（模拟真人用户的LLM）的常规做法，是逼模型去匹配某一条标准回复——要么最大化它的log概率，要么用相似度打分。问题是真人面对同一情境本来就有很多种说法，强行对齐单一答案等于把「像一个人」窄化成了「复刻这一句」。Turing-RL换了目标函数：用一个LLM裁判做图灵测试式的判别奖励，评估生成的回复在用户历史背景下「能不能被分辨出是模拟的」，模型学的是产出真假难辨的回复，而不是贴近某条ground truth。在对话聊天和Reddit论坛讨论两个场景里，这套方法在自动评测和人工评测上都稳定优于匹配类基线。具体提升幅度和裁判会不会被刷的问题需要看全文确认，但目标函数的这次校准方向，对做个性化评测和agent助手训练的人是对的。

用户模拟的真实诉求是「像一个人」而非「复刻某句话」，判别式奖励比相似度匹配更贴这个目标做personalization评测或agent训练时，可以重新审视自己的reward是不是被单一ground truth带偏了LLM裁判做判别奖励是关键变量，它的可靠性和抗刷能力决定这套方法能走多远，需看全文。

原文：Learning User Simulators with Turing Rewards

也值得关注

视频生成模型要当world model用，先得验证它懂不懂物理 视频生成Physics-IQ把物理理解从「生成质量」里单独拎出来量化。链接

材料基础模型适配新体系，靠sparsity-promoting微调换来鲁棒又可解释的校准 AI for Science机器学习原子间势在新领域的迁移问题，ICLR接收。链接

家庭助手忽略了对话里越说越省略的现象 AgentPEC-Home专门处理这种随上下文累积的渐进式省略指令解读，ACL接收。链接

习语跨语言难迁移，根在非组合性和表层弱grounding 评测G-IdiomAlign用英文gloss当锚点做跨语对齐基准，ACL接收。链接

今日观察

把今天的OmniAgent（2606.19341）和RNG-Bench（2606.19338）放一起看，会发现两篇在拆同一个默认假设——「多模态模型面对的是完整、当下可见的状态」。前者反对「逐帧全看」，主张主动挑该看什么；后者反对「全状态暴露」，要求模型重建已经看不见的观测。一个解决「别全看，要会选」，一个解决「看不全，要会补」。合起来指向的是同一件事：当多模态大模型被当成闭环policy部署，能力边界正在从「看得准不准」转向「怎么在部分可观测下管理有限的观测预算」。这对做视频agent、长上下文多模态系统的人有直接的设计含义——别再默认上下文里躺着全部该看的东西。

具体可以做一件事：拿你正在跑的多模态agent，挑几条失败case，按RNG-Bench的Memory Gap思路手动归因一下，看错误到底出在「没看到」、「忘了看过的」还是「看到了但决策错」——这三类的解法完全不同，先分清再投入，比直接换更大的模型更省。

今日概览

重点关注

01 多模态 长视频理解不必逐帧全看，让模型自己决定看哪里

02 评测 把多模态模型当 policy 用，短板不在决策而在记忆

03 模型架构 为什么扩散语言模型里偏偏少了这一块拼图？