文档Agent导航≈碰运气,预填充加速1.82×

今日概览

  • 文档Agent的推理能力被高估了,MADQA用经典测试理论设计的benchmark表明,最好的多模态Agent虽能追平人类准确率,但导航策略更接近随机搜索而非策略推理,与Oracle仍有近20%的差距
  • 理解3D空间的更好方式不是扩上下文窗口:Spatial-TTT让模型在推理时通过test-time training持续更新参数,边看视频边学空间结构,长视频场景提升显著
  • 稀疏注意力的indexer成了新瓶颈,IndexCache利用相邻层注意力模式的高度重叠跨层复用索引,砍掉75% indexer计算。30B模型预填充加速1.82倍,质量几乎无损
  • Reward model幻觉是RL优化图像生成的隐性瓶颈。FIRM从60万+专用数据出发训练8B参数critic模型,用Base-and-Bonus策略避免单一指标误导优化方向,全套开源

重点关注

01 Agent 多模态Agent在文档任务上的推理能力被高估了

多模态Agent在处理文档密集型任务时看起来越来越能干,但一个新benchmark给出了更冷静的诊断。MADQA包含2250道基于800份异构PDF的问题,研究团队用CTT(经典测试理论)设计题目来最大化对不同Agent能力的区分度。结果:最好的Agent在准确率上能追平人类搜索者,但两者答对的题目大不相同——Agent靠的是大量暴力检索来弥补策略规划的不足。更关键的数据是,Agent与Oracle性能之间仍有近20%的差距,而且Agent会反复陷入无效循环,消耗大量计算却不产出新信息。对正在构建Agent产品的团队来说,这是个产品风险信号:你的Agent在Demo里看起来很聪明,但在实际文档工作流中,它的「推理」可能只是搜索空间上的随机游走。benchmark和评估工具已开源,值得拿来测试自家系统到底是在「导航」还是在「碰运气」。

最好的多模态Agent准确率能追平人类,但依赖暴力搜索而非策略推理与Oracle间近20%的差距暴露了文档导航的结构性短板做Agent产品的团队应区分「能给出答案」和「能高效推理」

02 多模态 理解3D空间不靠更长上下文,靠模型在推理时改自己的权重

处理长视频里的空间信息,直觉做法是扩大上下文窗口塞更多帧。但Spatial-TTT换了个思路:让模型在推理时通过test-time training持续更新一部分参数(「快权重」),边看视频边学当前场景的空间结构。关键设计是用3D时空卷积做空间预测,引导模型主动捕捉帧间的几何对应关系,而不是被动记忆越来越多的帧。在视频空间理解benchmark上达到SOTA,长视频场景提升尤为明显。68个HF upvote说明社区嗅到了新范式——空间信息的核心挑战不是记住更多帧,而是怎么选择性保留和更新。

用推理时参数更新替代上下文窗口扩展,对长视频空间理解是更根本的解法3D时空卷积引导模型主动学习几何对应,不只是被动记忆帧序列有代码实现,做embodied AI或视频理解的团队值得跟进

03 推理加速 稀疏注意力省了计算,但谁来省稀疏注意力的开销?

DeepSeek Sparse Attention(DSA)用轻量indexer筛选top-k token,把核心注意力从O(L²)降到了O(Lk)——但indexer本身还是O(L²),而且每层都要独立跑一遍。IndexCache的观察很直接:相邻层选出的top-k token高度重叠,没必要每层都重新算。做法是把层分成少数「完整层」(运行自己的indexer)和多数「共享层」(直接复用邻近完整层的索引),提供training-free和training-aware两种配置方式。在30B参数的DSA模型上,砍掉75%的indexer计算,预填充加速1.82倍、解码加速1.48倍,质量几乎没有损失,GLM-5生产模型上的初步实验也确认了这个结论。

稀疏注意力的indexer本身成了新瓶颈,跨层复用是低成本的解法纯工程优化不改模型架构,已在生产级模型上初步验证长上下文serving的下一轮降本空间在注意力的辅助计算上

04 图像生成 奖励模型「看走眼」时,RL优化越努力效果越差

用RL优化图像生成有个容易被忽视的问题:充当裁判的reward model本身会产生幻觉,给出不靠谱的分数——模型不是生成能力不够,而是被错误的评分信号带偏了优化方向。FIRM从数据源头开始解决这个问题:针对图像编辑和文生图分别设计数据构建流程,收集了60万+高质量评分数据,训练出专门的8B参数critic模型。关键设计是「Base-and-Bonus」奖励策略——编辑任务用一致性调节执行分数,生成任务用质量调节对齐分数,避免单一指标误导优化。在benchmark上FIRM训练出的模型都有明显提升,且所有数据、模型和代码已开源,做相关方向的团队可以直接拿来用。

reward model幻觉是RL优化图像生成的隐性瓶颈,critic不准比生成器弱更致命60万+专用评分数据集和8B评分模型已开源,可直接用于构建RL训练流程与近期TDM-R1解决奖励不可微不同,FIRM解决的是奖励信号本身不可靠的问题
文档Agent导航≈碰运气,预填充加速1.82×

也值得关注

05
静态和动态片段分配同样多token是浪费 视频生成EVATok按内容复杂度自适应分配token长度,CVPR。链接
06
让扩散模型内部产生链式推理,而非依赖单步MLLM编码 图像生成生成过程中guidance随推理深度动态更新。链接
07
从交互轨迹中提取经验和技能两种可复用知识 Agent无需参数更新即可持续改进Agent工具调用。链接
08
文本驱动多镜头视频的镜头运动控制 视频生成数据驱动方式学习caption、轨迹、视频三者的联合分布。链接
09
预训练权重附近密集分布着任务专家解 训练优化大模型甚至不需要梯度下降,随机采样就能找到。链接
10
首个将视频扩散模型确定性转化为单次深度回归器的框架 多模态消除生成式方法的随机几何幻觉。链接
11
LLM RL post-training的采样算力怎么分配 训练优化CMU给出等算力曲线下的最优配比。链接
12
AI生成内容污染训练数据会导致模型崩塌 训练优化按比例混入真实数据replay可以有效延缓。链接
13
Stanford拆解学习型机器人策略的部署可靠性瓶颈 机器人分布偏移、误差累积、任务依赖链三个维度。链接
14
MoE+LoRA动态路由的实际推理开销远超理论计算量 推理加速AdaFuse用token级预门控和融合kernel补上这个gap。链接

今日观察

MADQA和FIRM,一个评估文档Agent,一个训练图像生成模型——两个看似无关的方向,暴露的却是同一个盲区:系统内部那个负责「判断」的组件,本身不可靠。

MADQA用经典测试理论设计了高区分度benchmark,结果发现Agent在文档集合上的导航策略更接近随机游走。Agent的内部规划器给出了看似合理的检索决策,但效果和随机搜索差不多——问题不在执行层,在规划层。FIRM发现了镜像问题:RL优化图像生成时,reward model产生幻觉评分,优化器忠实地朝着噪声方向走,越努力效果越差——问题不在生成器,在裁判。两个案例指向同一件事:系统中充当critic的组件,从未被单独验证过是否称职。

如果你在构建compound AI系统,可以立刻做一件事:列出pipeline中所有扮演「判断者」角色的组件——规划器、打分器、路由器、验证器——对每一个单独跑对抗性测试。如果它的判断准确率撑不起你赋予它的决策权重,要么换掉它,要么在架构层面降低系统对它的依赖。