20B搜索器外置状态打平前沿

今日概览

  • 给搜索agent删过期观察省上下文,收益是倒U形而非单调:从4B到284B、三种检索器扫一遍,强检索器配中等模型最划算,模型本身够强时反而把有用证据也删掉、准确率掉点。
  • 把「记账」从策略外置给环境,20B搜索器平均recall 0.730:比次强开源搜索子agent高11.4分,还在held-out迁移benchmark上提升最明显。
  • 报告里塞图容易,塞对没人验过:TVIR用100个专家curate的多模态深研任务,把「视觉元素的事实可靠性和与正文对齐」单独拎出来当评测维度。
  • 零标注教模型推断意图:MindZero用planner的行为可解释性当自监督奖励,训练用重推理、部署蒸成单次前向,在gridworld和家居场景超过又慢又贵的model-based方法。

重点关注

01 Agent 给搜索agent省上下文,这个优化什么时候反而掉点

长程搜索agent每次工具调用都会塞进一堆检索结果,上下文越积越满。一个最省事的做法是把「过期观察」(已经用不上的旧检索内容)从上下文里抹掉,腾出预算。这篇真正的贡献不在「省」,而在画出了一张regime map:从4B到284B的模型、三种检索器扫一遍,发现masking的收益不是单调向上的,而是一条不对称的倒U形曲线。难点在于这张图每一格的表现差得很远,不能一概而论——弱检索器(返回的证据本来噪声大、命中率低)下删不删几乎没区别,因为模型手里本就没多少值得保留的有效证据,省了也省不出什么;强检索器配中等能力模型时收益最大,因为检索器塞进来的优质证据最多、上下文压力最重,而模型自己又没能力隐式过滤噪声,这时把它已经消费完的旧观察清出去,正好把腾出的预算让给后续轮次;可一旦模型本身已经很强、能在长上下文里隐式分辨哪些是噪声哪些是证据,masking反而会误删它后面还要回头调用的关键证据,准确率明显掉点。机制上作者把它解释成「token换turn」的交易:masking删掉的是模型基本已经不再注意、后续也很少回头翻的内容,省下的token预算换来的是更多可执行的工具调用轮次——而这笔买卖划不划算,取决于这些多出来的轮次能不能把原本会失败的任务救回成功。也就是说净收益的正负不由「省了多少token」决定,而由「多换来的turn有没有用」决定,这两件事在不同regime里并不同步:弱检索器格子里省下的token换不来有效行动,强模型格子里删错证据反而要赔上准确率。所以masking到底该不该开,取决于你的模型能力和检索器强度落在这张地图的哪一格,而不是一个可以照搬的普适优化项。更实用的是,作者把完整的scaffold和实验trajectories都放了出来:做search/research agent的团队不必从零复现,可以直接拿自己的模型规模和检索器配置去地图上对号入座,先确认自己落在收益区还是掉点区,再决定要不要上这套masking,少走一轮自己撞墙才发现掉点的弯路。

上下文masking的收益是条件性的倒U形,不是单调优化,照搬可能掉点判断要不要开,先看自己的「模型能力×检索器强度」落在地图哪一格——强检索器配中等模型最划算,模型已经够强时反而别动作者放出了scaffold和trajectories,做search/research agent的团队可以直接拿自己的配置对照定位。

02 训练优化 搜索agent该记什么、不该记什么,这篇划了条线

训练搜索agent有个容易被忽略的负担:模型在一条越来越长的transcript上工作,既要决定下一步搜什么,又得自己记住看过哪些文档、哪些证据有用、哪些约束还没闭合。Harness-1的判断是,这些「记账」工作大多是环境能可靠维护的,不该塞进策略里让RL去优化——于是把候选池、证据链接、验证记录、去重压缩后的观察都外置到一个有状态的harness里,策略只保留真正难的语义决策:搜什么、留什么、验什么、何时停。结果是这个20B的检索子agent在覆盖网页、金融、专利、多跳QA的八个benchmark上拿到0.730的平均curated recall,比次强的开源搜索子agent高11.4分,还能跟大得多的前沿模型掰手腕。更值得注意的是它在held-out迁移benchmark上提升最明显,说明在显式搜索状态上做RL,学到的检索行为能跨域泛化,而不只是过拟合训练分布。和今天featured那篇放一起看是同一个问题的两种下刀法:一个从环境侧把状态externalize出去,一个从上下文侧把状态mask掉。

把可恢复的状态管理从策略里剥离、交给环境维护,能让RL集中优化真正难的搜索决策20B模型靠这个思路打平甚至超过更大的前沿搜索器,对算力有限的团队是个可借鉴的架构选择迁移benchmark上的强泛化是最值得验证的信号,但需要看全文确认是否在更难的真实检索场景下成立。

03 多模态 报告里塞张图容易,塞对才是没人验过的活

做research类agent的人都知道,让模型多步检索、写出几千字的长报告,现在已经不算难事。但报告里的那些图表——配图选得对不对、自己画的chart数据准不准、跟正文的分析对不对得上——几乎没有系统的评测方式。TVIR补的就是这块:100个由专家curate的多模态深研任务,每个任务里的视觉元素都得服务于一个具体的分析目标,而不是随便配张图凑数。配套的TVIR-Agent是个分层多智能体框架,把搭大纲、检索图片、生成可溯源的图表、按上下文顺序写作拆成独立环节,在九个deep research系统里拿到了不错的整体表现。它真正的贡献不在那个baseline,而在于把「视觉信息的事实可靠性和与正文的对齐」单独拎出来当评测维度——这恰恰是过去长报告评测里被跳过的部分。

做research/报告类agent的团队,可以把「配图是否事实可靠、是否和分析对齐」加进自己的验收清单,而不只看文字质量图表溯源(traceable sources)这个设计值得借鉴,否则agent画的chart容易是「看着对、数据假」这是个评测层面的提醒,TVIR-Agent本身的强弱要看全文的对比细节才能下判断。

04 推理 没有标注,怎么教模型猜人在想什么?

想让AI助手真正有用,它得会从你的动作反推你的意图——但这件事最大的拦路虎不是算法,而是真实场景里根本没有「心理状态」的标准答案可学。MindZero给出的解法有点出人意料:它不要标注,而是让模型生成一堆关于「你在想什么」的假设,再用一个planner反过来算——哪个假设最能解释你已经做出的行为,就奖励哪个。这等于把「猜意图」变成了一个自监督信号,不需要任何人工标注。更关键的是,训练时用的是慢而重的model-based推理,但训练完模型把这套能力内化成了单次前向推理——既保留了准确率,又快到能实时辅助。在gridworld和家居场景里,它在准确率和效率上都超过了原本又慢又贵的model-based方法。

用planner的「行为可解释性」当奖励信号,绕开了真实场景缺少心理状态标注的死结训练阶段用重推理、部署阶段蒸成单次推理,是把「会推理但太慢」落地的通用思路做real-time助手类agent的团队值得关注这条无监督学意图的路线。
20B搜索器外置状态打平前沿

也值得关注

05
给agentic search扩test-time compute,正确答案稀疏、靠分数选反而踩模型校准的坑 AgentFineVerify把问题拆成可核验的子问题逐条验证候选,相当于把「判对错」也从策略里拆出去结构化做,是今天masking/externalize思路的第三种下刀法。链接

今日观察

把今天四篇里的三篇搜索agent论文叠在一起看,会发现它们盯的不是「怎么搜得更准」,而是策略身上背的杂活太多——一条越来越长的transcript里,模型既要做语义搜索决策,又要记账、记住看过什么、还得自己判断答案对不对。三篇各拆走一块负担:Harness-1把可恢复的状态externalize给环境,策略只留真正难的搜索决策;Masking那篇把过期观察从上下文里抹掉,但要紧的是它只在特定regime里成立、换格子就翻车;FineVerify把「答案对不对」拆成子问题逐条核验,也从策略里搬了出去。机制上是同一件事在三个面上发生:状态和记账正从策略往外移,移到harness、context窗口和验证环节里。这意味着搜索agent的杠杆点正在偏移——不全在策略本身,而在你怎么管上下文窗口里装了什么。

落到行动上:下次做research/搜索agent,先别急着调策略或加RL,先把状态盘一遍——候选池、证据链接、验证记录这些可恢复的东西,哪些该交给环境可靠维护,哪些该在过期时清出上下文,而不是一股脑塞进prompt让模型自己扛。这一步理顺了,策略要学的东西才会少而清晰。