今日概览
- Arbor 让 agent 自己跑完整科研循环,靠一棵 Hypothesis Tree 把经验跨轮累积,六个真实研究任务全拿最佳,平均相对增益是 Codex 和 Claude Code 的 2.5 倍以上。
- 环境正在变成新的扩展轴:RACES 把可验证环境当乐高积木递归组合,50 个基础环境拼出约等于 300 个独立环境的训练效果。
- InternVideo3 把 agentic 那套搬进长视频——观察、推理、工具、记忆共享一个演化上下文,长视频理解变成「积累证据、再验证」的闭环。
- MTP 接受率下滑的根因是 RL 中熵上升,Bebop 用 rejection sampling 配 TV loss 把接受率最高提到 95%、端到端加速 1.8 倍。
- 训 SAE 之前先用更轻的镜头:ICA Lens 不训任何字典就从激活几何里抽出可读方向,在 SAEBench 上与公开 SAE 打平。
重点关注
01 Agent 自动科研的关键不在能不能做研究,而在经验怎么跨轮累积
Arbor把自主科研拆成了两层:一个常驻的协调者(coordinator)负责全局策略,一批一次性的执行者(executor)在隔离的worktree里实现和测试单个假设。真正值得从业者琢磨的是它中间那棵Hypothesis Tree——一棵把假设、产物、证据和提炼出的结论持久串起来的树。每次实验结果返回,协调者就更新这棵树、把可复用的教训传播到其他分支、再修正下一步的探索方向。这其实是在回答所有做长程coding/research agent的人都绕不开的同一个问题:当单轮context必然会爆时,怎么让经验跨多轮沉淀下来——HTR的答案是把记忆从context里挪出来,做成一个外置的、结构化的长期记忆。效果上,六个真实研究任务全部拿到最佳held-out结果,平均相对增益是Codex和Claude Code的2.5倍以上,MLE-Bench Lite上配GPT-5.5拿到86.36% Any Medal;不过这套架构思路本身比这些数字更值得关注,具体的传播和剪枝机制还需要看全文确认。
原文:Toward Generalist Autonomous Research via Hypothesis-Tree Refinement
02 训练优化 当模型和算法都趋同,环境正成为新的扩展轴
可验证环境(verifiable environment,能自动判对错的训练任务)是 RL 提升推理能力的关键燃料,但有个老问题:环境靠人手搭,数量是线性增长的,扩不上去。RACES 的思路是把环境当乐高积木——当一个环境的输出类型正好是另一个环境的输入类型,两者就能自动拼成一个新的可验证环境,再用 SEQUENTIAL、PARALLEL、SORT、SELECT 几种算子递归组合。效果是实打实的:50 个基础环境组合出来的训练效果,约等于直接用 300 个独立环境,在六个训练时没见过的 benchmark 上,14B 模型平均提升 3 个点左右。点数不大,但它真正交付的是环境利用效率——少搭环境、多组合,比硬堆数量更可扩展。值得和同一天另一篇高热的环境工程综述(2606.12191,58 upvotes)放在一起看:一篇在系统梳理「环境工程生命周期」,一篇给出自动组合环境的具体方法,两条线指向同一个判断——当底层模型和算法逐渐趋同,环境的合成与组合正在变成下一个扩展轴。
原文:Verifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization
03 多模态 让模型「看懂」长视频,差的不是参数而是闭环
开源 agent 的多步推理和工具调用,大多还停在纯文本场景——文档、代码、网页搜索。一旦换成需要持续时间理解、反复回看的长视频,这套能力基本是空白。InternVideo3的思路是把视频理解做成一个闭环:观察、指令、推理、工具动作、记忆共享同一个不断演化的上下文,长视频理解因此变成「积累证据、再验证」的过程,而不是看一遍就给答案。为了让这个闭环跑得起来,它用一种token保留的注意力重参数化(M²LA)压缩KV-cache,避免长上下文把显存撑爆。配套是分阶段训练:持续预训练、短到长的微调、规则强化学习再加策略蒸馏。对从业者来说,真正的信号不是某个benchmark刷新,而是它和今天的Arbor、环境工程指向同一个方向——agentic那套范式正在从文本往各个模态铺开。
原文:InternVideo3: Agentify Foundation Models with Multimodal Contextual Reasoning
04 推理加速 加速RL训练的那个技巧,为什么一上线就失灵了?
RL训练里最贵的环节是rollout(模型自己生成大量样本供打分),MTP(多token预测)配speculative decoding本是加速它的自然解,但很多人发现接受率在RL过程中会一路下滑,省下的时间又吐了回去。Bebop把这个现象定位到一个具体原因:MTP接受率和模型熵呈清晰的负线性关系——RL训练中熵一升,草稿token就越来越难被接受。它的解法是用概率性的rejection sampling替代贪心草稿采样来抵消熵的扰动,再把训练目标从常规的交叉熵/KL换成直接优化接受率的端到端TV loss,接受率提升约10%、最高到95%。另一个实用结论是:在RL之前一次性训好MTP就能在整个RL过程保持稳定,不必在线反复更新,省掉一大块工程成本,端到端最高1.8倍加速。
原文:Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling
05 训SAE之前,先问一句:激活里本来能看见多少?
要在语言模型里找「可解释方向」,现在的默认第一步几乎都是训一个稀疏自编码器(SAE,一种把激活拆成稀疏特征的字典)——训练、存储、评估一大堆过完备字典,成本不低。ICALens反过来问了个很务实的问题:在训任何字典之前,激活的几何形状里本来就能看见多少结构?答案有点意外——把一个被低估的经典工具ICA(独立成分分析)调稳、并行化之后,不用逐层做梯度训练,就能直接抽出紧凑、可读的方向。在SAEBench上,ICA在稀疏探测任务上和公开SAE打平,在中小预算下的定向探测扰动里甚至更好。它不是要取代SAE,而是提醒做可解释性的人:先用更轻的镜头看一遍,可能比想象中走得更远。
原文:ICA Lens: Interpreting Language Models Without Training Another Dictionary

也值得关注
今日观察
把今天几篇放一起看,会浮现一条不显眼的线:agent 能力的瓶颈,正在从模型和算法那一端,悄悄挪到「环境」本身。一篇环境工程综述(2606.12191)在系统梳理环境的建模、合成、评估、应用这条完整生命周期;RACES(2606.12373)给出递归组合可验证环境的具体算子,要的就是突破人手搭环境那种线性扩展;而 Arbor(2606.11926)的自主科研循环,本质上是 agent 在为自己构造可探索的环境。这三条看似不相干,落点其实是同一个判断——当底座模型和 RL 算法都趋同,差异不再来自「用什么模型」,而来自谁能更快地合成、组合、验证环境。环境正在接替数据,成为下一个被「工程化」的对象,也是下一根值得押注的扩展轴。
具体可做的一件事:如果你手上有 RL 训练或 agent 评测的环境,别再把它当一次性脚本,先把输入/输出类型标注清楚——这是 RACES 那套递归组合能跑起来的前提,也是把「搭环境」从线性投入变成可复用资产的第一步。