7B视频agent反超72B模型

今日概览

  • 长视频理解不必逐帧全看:OmniAgent把感知建模成可自主决策的推理动作,7B agent在LVBench做到50.5%,反超大10倍的Qwen2.5-VL-72B,还表现出正向test-time scaling。
  • 多模态当policy的瓶颈在记忆而非决策:RNG-Bench用两个游戏把「重建看不见的观测并据此行动」单独隔离,发现前沿模型的残余错误大多来自遗忘早先观测,且可通过微调缓解。
  • uniform扩散语言模型补上了缺失的拼图:Sumi是首个上规模(7B、1.5T token)从零预训的全开放uniform扩散模型,权重、配方、数据配比全放出,给社区一个真正能study的对象。
  • AI科学家的每一步推理都留下可查证据:Xcientist把文献证据、想法、计划、消融全externalize成契约约束的artifact,点出了「claim drift」这一只看产物发现不了的失败模式。
  • 用户模拟器的目标从「像那句话」改成「像一个人」:Turing-RL用图灵测试式的判别奖励替代相似度匹配,在对话和论坛两个场景上稳定优于匹配类基线。

重点关注

01 多模态 长视频理解不必逐帧全看,让模型自己决定看哪里

长视频理解一直被「watch-it-all」拖累:不管问题难易,每一帧都均匀处理,算力随视频时长线性增长。OmniAgent换了个框架——把视频理解建模成POMDP下的「观察-思考-行动」循环,让模型按需执行动作,只把关键的音视频线索蒸馏进一份持续的文本记忆里,从而把推理复杂度和原始视频时长解耦开。训练上分两步:先用Agentic SFT通过best-of-N轨迹合成把「主动感知」的能力引导出来,再用带TAURA的Agentic RL,靠每一轮的熵把信用分配引向那些真正有发现的关键步骤。结果上,7B的agent在LVBench上做到50.5%,超过了大10倍的Qwen2.5-VL-72B的47.3%,并且表现出正向的test-time scaling——推理轮数越多效果越好。值得留意的是,论文强调它和依赖global pre-scanning的交互式方案不同,后者的context成本仍随视频长度增长,但主动性究竟是真省了开销,还是把开销从「看帧」挪到了「多轮推理」,需要看全文的实际延迟和token消耗才能下结论。

把「感知」当成可由模型自主决策的推理动作,是长视频agent降本的一条实际路径7B超过72B说明这类任务上架构设计比单纯堆参数更关键,做video-RAG/长视频问答的团队值得跟进省开销的说法要警惕——多轮主动推理可能把成本从帧处理转移到推理轮数,落地前需自己测实际延迟和token账单

02 评测 把多模态模型当 policy 用,短板不在决策而在记忆

把多模态大模型接成闭环策略时,很多动作其实要基于「已经划出屏幕、当前看不见的观测」来做——而这一项能力一直被现有评测掩盖着。RNG-Bench做的事很克制:用两个游戏(记忆翻牌、第一人称3D迷宫)把「在多步交互中重建不可见观测并据此行动」单独隔离出来,再用Memory Gap这个指标把「忘了」和「决策差」拆开。结论值得注意——前沿MLLM在最难配置(单局约128K上下文、350张图)上远未饱和,而且残余错误大多来自遗忘早先的观测,不是决策本身不行。换句话说,瓶颈不在推理能力,而在长时记忆的保持。作者还验证了用最优策略rollout微调Qwen3.5-9B能改善表现,并迁移到其他benchmark而不损伤通用能力,说明这是可训练的、不是模型的硬天花板。

把多模态模型当 agent/policy 用时,真正的瓶颈可能是「记不住看过的东西」而非决策Memory Gap 指标把遗忘和决策差拆开,方便定位问题出在哪一环这类记忆短板可通过针对性微调缓解,且不牺牲通用能力,对做闭环 agent 的团队是个可操作信号。

03 模型架构 为什么扩散语言模型里偏偏少了这一块拼图?

语言模型的路线图上,自回归(一个一个往后预测token)和masked diffusion(先盖住一部分再填空)社区都有可研究、可在其上继续搭建的开源大模型,唯独uniform diffusion——允许任意token在任意step被更新,理论上生成更灵活——一个能上规模的都没有。Sumi补的就是这块空白:一个7B、从零预训、吃了1.5T token的全开放uniform扩散模型,权重、checkpoint、完整训练配方连数据配比都一并放出。它在知识、推理、代码benchmark上和同等token预算的自回归模型打平,在常识任务上偏弱(团队归因于教育向的数据配比)。但它的价值本来就不在刷榜,而在于第一次给了社区一个真正能拿来study扩展规律、生成动态和可控性的对象。

uniform diffusion此前缺一个上规模的开源参照系,Sumi填上了这块拼图研究扩散语言模型路线的团队现在有了可复现的7B基线和完整数据配方常识任务偏弱更像数据配比问题而非架构上限,值得后续验证。

04 Agent 让AI科学家的每一步推理都留下可查的证据

自动化科研有个隐患:从「参考了哪些证据」到「为什么这么设计实验」再到「最终结论」,这条推理链大多藏在模型inference内部,你只能看到产出,看不到它怎么想的。Xcientist的做法是把这条链外化——文献证据、想法状态、实现计划、消融记录、修复轨迹全部存成持久化、有契约约束(contract-governed)的artifact,每个机制都能追溯到它的证据来源。它点出一个具体的失败模式叫claim drift:代码改着改着,能跑的产物已经不再支撑当初声称的机制了,而这种漂移在只看最终结果时根本发现不了。论文在三个领域(记忆系统、交通预测、物理信息神经网络)验证了轨迹的可追溯性。值得保留的疑问是:这套harness究竟让科研推理更可靠了,还是主要把复杂度从模型搬到了流程编排上——可审计是真价值,但代价多大需要看全文确认。

AI科学家的评估标准正在从「最终产物好不好」转向「推理过程能不能被审计追溯」claim drift是个值得记住的概念——自动化流水线里产物和声称的机制会悄悄脱节做AI-for-science工具的团队值得关注这种artifact外化思路,但要权衡它增加的流程编排成本

05 训练优化 把「像不像那句话」改成「像不像一个人」

训练用户模拟器(模拟真人用户的LLM)的常规做法,是逼模型去匹配某一条标准回复——要么最大化它的log概率,要么用相似度打分。问题是真人面对同一情境本来就有很多种说法,强行对齐单一答案等于把「像一个人」窄化成了「复刻这一句」。Turing-RL换了目标函数:用一个LLM裁判做图灵测试式的判别奖励,评估生成的回复在用户历史背景下「能不能被分辨出是模拟的」,模型学的是产出真假难辨的回复,而不是贴近某条ground truth。在对话聊天和Reddit论坛讨论两个场景里,这套方法在自动评测和人工评测上都稳定优于匹配类基线。具体提升幅度和裁判会不会被刷的问题需要看全文确认,但目标函数的这次校准方向,对做个性化评测和agent助手训练的人是对的。

用户模拟的真实诉求是「像一个人」而非「复刻某句话」,判别式奖励比相似度匹配更贴这个目标做personalization评测或agent训练时,可以重新审视自己的reward是不是被单一ground truth带偏了LLM裁判做判别奖励是关键变量,它的可靠性和抗刷能力决定这套方法能走多远,需看全文。
7B视频agent反超72B模型

也值得关注

06
视频生成模型要当world model用,先得验证它懂不懂物理 视频生成Physics-IQ把物理理解从「生成质量」里单独拎出来量化。链接
07
材料基础模型适配新体系,靠sparsity-promoting微调换来鲁棒又可解释的校准 AI for Science机器学习原子间势在新领域的迁移问题,ICLR接收。链接
08
家庭助手忽略了对话里越说越省略的现象 AgentPEC-Home专门处理这种随上下文累积的渐进式省略指令解读,ACL接收。链接
09
习语跨语言难迁移,根在非组合性和表层弱grounding 评测G-IdiomAlign用英文gloss当锚点做跨语对齐基准,ACL接收。链接

今日观察

把今天的OmniAgent(2606.19341)和RNG-Bench(2606.19338)放一起看,会发现两篇在拆同一个默认假设——「多模态模型面对的是完整、当下可见的状态」。前者反对「逐帧全看」,主张主动挑该看什么;后者反对「全状态暴露」,要求模型重建已经看不见的观测。一个解决「别全看,要会选」,一个解决「看不全,要会补」。合起来指向的是同一件事:当多模态大模型被当成闭环policy部署,能力边界正在从「看得准不准」转向「怎么在部分可观测下管理有限的观测预算」。这对做视频agent、长上下文多模态系统的人有直接的设计含义——别再默认上下文里躺着全部该看的东西。

具体可以做一件事:拿你正在跑的多模态agent,挑几条失败case,按RNG-Bench的Memory Gap思路手动归因一下,看错误到底出在「没看到」、「忘了看过的」还是「看到了但决策错」——这三类的解法完全不同,先分清再投入,比直接换更大的模型更省。