20B搜索器外置状态打平前沿

今日概览

给搜索agent删过期观察省上下文，收益是倒U形而非单调：从4B到284B、三种检索器扫一遍，强检索器配中等模型最划算，模型本身够强时反而把有用证据也删掉、准确率掉点。
把「记账」从策略外置给环境，20B搜索器平均recall 0.730：比次强开源搜索子agent高11.4分，还在held-out迁移benchmark上提升最明显。
报告里塞图容易，塞对没人验过：TVIR用100个专家curate的多模态深研任务，把「视觉元素的事实可靠性和与正文对齐」单独拎出来当评测维度。
零标注教模型推断意图：MindZero用planner的行为可解释性当自监督奖励，训练用重推理、部署蒸成单次前向，在gridworld和家居场景超过又慢又贵的model-based方法。

重点关注

01 Agent 给搜索agent省上下文，这个优化什么时候反而掉点

长程搜索agent每次工具调用都会塞进一堆检索结果，上下文越积越满。一个最省事的做法是把「过期观察」（已经用不上的旧检索内容）从上下文里抹掉，腾出预算。这篇真正的贡献不在「省」，而在画出了一张regime map：从4B到284B的模型、三种检索器扫一遍，发现masking的收益不是单调向上的，而是一条不对称的倒U形曲线。难点在于这张图每一格的表现差得很远，不能一概而论——弱检索器（返回的证据本来噪声大、命中率低）下删不删几乎没区别，因为模型手里本就没多少值得保留的有效证据，省了也省不出什么；强检索器配中等能力模型时收益最大，因为检索器塞进来的优质证据最多、上下文压力最重，而模型自己又没能力隐式过滤噪声，这时把它已经消费完的旧观察清出去，正好把腾出的预算让给后续轮次；可一旦模型本身已经很强、能在长上下文里隐式分辨哪些是噪声哪些是证据，masking反而会误删它后面还要回头调用的关键证据，准确率明显掉点。机制上作者把它解释成「token换turn」的交易：masking删掉的是模型基本已经不再注意、后续也很少回头翻的内容，省下的token预算换来的是更多可执行的工具调用轮次——而这笔买卖划不划算，取决于这些多出来的轮次能不能把原本会失败的任务救回成功。也就是说净收益的正负不由「省了多少token」决定，而由「多换来的turn有没有用」决定，这两件事在不同regime里并不同步：弱检索器格子里省下的token换不来有效行动，强模型格子里删错证据反而要赔上准确率。所以masking到底该不该开，取决于你的模型能力和检索器强度落在这张地图的哪一格，而不是一个可以照搬的普适优化项。更实用的是，作者把完整的scaffold和实验trajectories都放了出来：做search/research agent的团队不必从零复现，可以直接拿自己的模型规模和检索器配置去地图上对号入座，先确认自己落在收益区还是掉点区，再决定要不要上这套masking，少走一轮自己撞墙才发现掉点的弯路。

上下文masking的收益是条件性的倒U形，不是单调优化，照搬可能掉点判断要不要开，先看自己的「模型能力×检索器强度」落在地图哪一格——强检索器配中等模型最划算，模型已经够强时反而别动作者放出了scaffold和trajectories，做search/research agent的团队可以直接拿自己的配置对照定位。

原文：Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

02 训练优化搜索agent该记什么、不该记什么，这篇划了条线

训练搜索agent有个容易被忽略的负担：模型在一条越来越长的transcript上工作，既要决定下一步搜什么，又得自己记住看过哪些文档、哪些证据有用、哪些约束还没闭合。Harness-1的判断是，这些「记账」工作大多是环境能可靠维护的，不该塞进策略里让RL去优化——于是把候选池、证据链接、验证记录、去重压缩后的观察都外置到一个有状态的harness里，策略只保留真正难的语义决策：搜什么、留什么、验什么、何时停。结果是这个20B的检索子agent在覆盖网页、金融、专利、多跳QA的八个benchmark上拿到0.730的平均curated recall，比次强的开源搜索子agent高11.4分，还能跟大得多的前沿模型掰手腕。更值得注意的是它在held-out迁移benchmark上提升最明显，说明在显式搜索状态上做RL，学到的检索行为能跨域泛化，而不只是过拟合训练分布。和今天featured那篇放一起看是同一个问题的两种下刀法：一个从环境侧把状态externalize出去，一个从上下文侧把状态mask掉。

把可恢复的状态管理从策略里剥离、交给环境维护，能让RL集中优化真正难的搜索决策20B模型靠这个思路打平甚至超过更大的前沿搜索器，对算力有限的团队是个可借鉴的架构选择迁移benchmark上的强泛化是最值得验证的信号，但需要看全文确认是否在更难的真实检索场景下成立。

原文：Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

03 多模态报告里塞张图容易，塞对才是没人验过的活

做research类agent的人都知道，让模型多步检索、写出几千字的长报告，现在已经不算难事。但报告里的那些图表——配图选得对不对、自己画的chart数据准不准、跟正文的分析对不对得上——几乎没有系统的评测方式。TVIR补的就是这块：100个由专家curate的多模态深研任务，每个任务里的视觉元素都得服务于一个具体的分析目标，而不是随便配张图凑数。配套的TVIR-Agent是个分层多智能体框架，把搭大纲、检索图片、生成可溯源的图表、按上下文顺序写作拆成独立环节，在九个deep research系统里拿到了不错的整体表现。它真正的贡献不在那个baseline，而在于把「视觉信息的事实可靠性和与正文的对齐」单独拎出来当评测维度——这恰恰是过去长报告评测里被跳过的部分。

做research/报告类agent的团队，可以把「配图是否事实可靠、是否和分析对齐」加进自己的验收清单，而不只看文字质量图表溯源（traceable sources）这个设计值得借鉴，否则agent画的chart容易是「看着对、数据假」这是个评测层面的提醒，TVIR-Agent本身的强弱要看全文的对比细节才能下判断。

原文：TVIR: Building Deep Research Agents Towards Text--Visual Interleaved Report Generation

04 推理没有标注，怎么教模型猜人在想什么？

想让AI助手真正有用，它得会从你的动作反推你的意图——但这件事最大的拦路虎不是算法，而是真实场景里根本没有「心理状态」的标准答案可学。MindZero给出的解法有点出人意料：它不要标注，而是让模型生成一堆关于「你在想什么」的假设，再用一个planner反过来算——哪个假设最能解释你已经做出的行为，就奖励哪个。这等于把「猜意图」变成了一个自监督信号，不需要任何人工标注。更关键的是，训练时用的是慢而重的model-based推理，但训练完模型把这套能力内化成了单次前向推理——既保留了准确率，又快到能实时辅助。在gridworld和家居场景里，它在准确率和效率上都超过了原本又慢又贵的model-based方法。

用planner的「行为可解释性」当奖励信号，绕开了真实场景缺少心理状态标注的死结训练阶段用重推理、部署阶段蒸成单次推理，是把「会推理但太慢」落地的通用思路做real-time助手类agent的团队值得关注这条无监督学意图的路线。

原文：MindZero: Learning Online Mental Reasoning With Zero Annotations

也值得关注

给agentic search扩test-time compute，正确答案稀疏、靠分数选反而踩模型校准的坑 AgentFineVerify把问题拆成可核验的子问题逐条验证候选，相当于把「判对错」也从策略里拆出去结构化做，是今天masking/externalize思路的第三种下刀法。链接

今日观察

把今天四篇里的三篇搜索agent论文叠在一起看，会发现它们盯的不是「怎么搜得更准」，而是策略身上背的杂活太多——一条越来越长的transcript里，模型既要做语义搜索决策，又要记账、记住看过什么、还得自己判断答案对不对。三篇各拆走一块负担：Harness-1把可恢复的状态externalize给环境，策略只留真正难的搜索决策；Masking那篇把过期观察从上下文里抹掉，但要紧的是它只在特定regime里成立、换格子就翻车；FineVerify把「答案对不对」拆成子问题逐条核验，也从策略里搬了出去。机制上是同一件事在三个面上发生：状态和记账正从策略往外移，移到harness、context窗口和验证环节里。这意味着搜索agent的杠杆点正在偏移——不全在策略本身，而在你怎么管上下文窗口里装了什么。

落到行动上：下次做research/搜索agent，先别急着调策略或加RL，先把状态盘一遍——候选池、证据链接、验证记录这些可恢复的东西，哪些该交给环境可靠维护，哪些该在过期时清出上下文，而不是一股脑塞进prompt让模型自己扛。这一步理顺了，策略要学的东西才会少而清晰。