今日概览
- 给搜索agent删过期观察省上下文,收益是倒U形而非单调:从4B到284B、三种检索器扫一遍,强检索器配中等模型最划算,模型本身够强时反而把有用证据也删掉、准确率掉点。
- 把「记账」从策略外置给环境,20B搜索器平均recall 0.730:比次强开源搜索子agent高11.4分,还在held-out迁移benchmark上提升最明显。
- 报告里塞图容易,塞对没人验过:TVIR用100个专家curate的多模态深研任务,把「视觉元素的事实可靠性和与正文对齐」单独拎出来当评测维度。
- 零标注教模型推断意图:MindZero用planner的行为可解释性当自监督奖励,训练用重推理、部署蒸成单次前向,在gridworld和家居场景超过又慢又贵的model-based方法。
重点关注
01 Agent 给搜索agent省上下文,这个优化什么时候反而掉点
长程搜索agent每次工具调用都会塞进一堆检索结果,上下文越积越满。一个最省事的做法是把「过期观察」(已经用不上的旧检索内容)从上下文里抹掉,腾出预算。这篇真正的贡献不在「省」,而在画出了一张regime map:从4B到284B的模型、三种检索器扫一遍,发现masking的收益不是单调向上的,而是一条不对称的倒U形曲线。难点在于这张图每一格的表现差得很远,不能一概而论——弱检索器(返回的证据本来噪声大、命中率低)下删不删几乎没区别,因为模型手里本就没多少值得保留的有效证据,省了也省不出什么;强检索器配中等能力模型时收益最大,因为检索器塞进来的优质证据最多、上下文压力最重,而模型自己又没能力隐式过滤噪声,这时把它已经消费完的旧观察清出去,正好把腾出的预算让给后续轮次;可一旦模型本身已经很强、能在长上下文里隐式分辨哪些是噪声哪些是证据,masking反而会误删它后面还要回头调用的关键证据,准确率明显掉点。机制上作者把它解释成「token换turn」的交易:masking删掉的是模型基本已经不再注意、后续也很少回头翻的内容,省下的token预算换来的是更多可执行的工具调用轮次——而这笔买卖划不划算,取决于这些多出来的轮次能不能把原本会失败的任务救回成功。也就是说净收益的正负不由「省了多少token」决定,而由「多换来的turn有没有用」决定,这两件事在不同regime里并不同步:弱检索器格子里省下的token换不来有效行动,强模型格子里删错证据反而要赔上准确率。所以masking到底该不该开,取决于你的模型能力和检索器强度落在这张地图的哪一格,而不是一个可以照搬的普适优化项。更实用的是,作者把完整的scaffold和实验trajectories都放了出来:做search/research agent的团队不必从零复现,可以直接拿自己的模型规模和检索器配置去地图上对号入座,先确认自己落在收益区还是掉点区,再决定要不要上这套masking,少走一轮自己撞墙才发现掉点的弯路。
原文:Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism
02 训练优化 搜索agent该记什么、不该记什么,这篇划了条线
训练搜索agent有个容易被忽略的负担:模型在一条越来越长的transcript上工作,既要决定下一步搜什么,又得自己记住看过哪些文档、哪些证据有用、哪些约束还没闭合。Harness-1的判断是,这些「记账」工作大多是环境能可靠维护的,不该塞进策略里让RL去优化——于是把候选池、证据链接、验证记录、去重压缩后的观察都外置到一个有状态的harness里,策略只保留真正难的语义决策:搜什么、留什么、验什么、何时停。结果是这个20B的检索子agent在覆盖网页、金融、专利、多跳QA的八个benchmark上拿到0.730的平均curated recall,比次强的开源搜索子agent高11.4分,还能跟大得多的前沿模型掰手腕。更值得注意的是它在held-out迁移benchmark上提升最明显,说明在显式搜索状态上做RL,学到的检索行为能跨域泛化,而不只是过拟合训练分布。和今天featured那篇放一起看是同一个问题的两种下刀法:一个从环境侧把状态externalize出去,一个从上下文侧把状态mask掉。
原文:Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses
03 多模态 报告里塞张图容易,塞对才是没人验过的活
做research类agent的人都知道,让模型多步检索、写出几千字的长报告,现在已经不算难事。但报告里的那些图表——配图选得对不对、自己画的chart数据准不准、跟正文的分析对不对得上——几乎没有系统的评测方式。TVIR补的就是这块:100个由专家curate的多模态深研任务,每个任务里的视觉元素都得服务于一个具体的分析目标,而不是随便配张图凑数。配套的TVIR-Agent是个分层多智能体框架,把搭大纲、检索图片、生成可溯源的图表、按上下文顺序写作拆成独立环节,在九个deep research系统里拿到了不错的整体表现。它真正的贡献不在那个baseline,而在于把「视觉信息的事实可靠性和与正文的对齐」单独拎出来当评测维度——这恰恰是过去长报告评测里被跳过的部分。
原文:TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation
04 推理 没有标注,怎么教模型猜人在想什么?
想让AI助手真正有用,它得会从你的动作反推你的意图——但这件事最大的拦路虎不是算法,而是真实场景里根本没有「心理状态」的标准答案可学。MindZero给出的解法有点出人意料:它不要标注,而是让模型生成一堆关于「你在想什么」的假设,再用一个planner反过来算——哪个假设最能解释你已经做出的行为,就奖励哪个。这等于把「猜意图」变成了一个自监督信号,不需要任何人工标注。更关键的是,训练时用的是慢而重的model-based推理,但训练完模型把这套能力内化成了单次前向推理——既保留了准确率,又快到能实时辅助。在gridworld和家居场景里,它在准确率和效率上都超过了原本又慢又贵的model-based方法。
原文:MindZero: Learning Online Mental Reasoning With Zero Annotations

也值得关注
今日观察
把今天四篇里的三篇搜索agent论文叠在一起看,会发现它们盯的不是「怎么搜得更准」,而是策略身上背的杂活太多——一条越来越长的transcript里,模型既要做语义搜索决策,又要记账、记住看过什么、还得自己判断答案对不对。三篇各拆走一块负担:Harness-1把可恢复的状态externalize给环境,策略只留真正难的搜索决策;Masking那篇把过期观察从上下文里抹掉,但要紧的是它只在特定regime里成立、换格子就翻车;FineVerify把「答案对不对」拆成子问题逐条核验,也从策略里搬了出去。机制上是同一件事在三个面上发生:状态和记账正从策略往外移,移到harness、context窗口和验证环节里。这意味着搜索agent的杠杆点正在偏移——不全在策略本身,而在你怎么管上下文窗口里装了什么。
落到行动上:下次做research/搜索agent,先别急着调策略或加RL,先把状态盘一遍——候选池、证据链接、验证记录这些可恢复的东西,哪些该交给环境可靠维护,哪些该在过期时清出上下文,而不是一股脑塞进prompt让模型自己扛。这一步理顺了,策略要学的东西才会少而清晰。