今日概览
- 多轮agent训练贵在决策密度,不在horizon长度:Mila把成本重新算了一遍——真正稀释信号的是大量「reward等价」的例行动作,信噪比随决策密度ρ^(-1/2)衰减在受控环境里被复现到R²=0.999。
- RLVR搬到科学领域,涨分未必等于真泛化:Mat-Pref把测试集切成分布内、未见结构家族、跨性质迁移三块,发现GRPO相对SFT的增益更像重塑分布而非学到新知识,8B两阶段训练能在held-out家族上反超235B零样本20多个点。
- 蛋白质模型预测很准,归因却对不上真实表位:ETH以真实过敏原epitope为基准,发现residue级归因和真实表位的对齐跟随机猜没有显著差别,高风险筛查里把归因当生物学证据是危险的过度解读。
- 「BC预训练再上AIL」这个老技巧,终于有了理论保证:CoPT-AIL指出真正的瓶颈是奖励函数从头学的误差,把策略和奖励一起预训练,证明模仿差距上界优于标准AIL。
重点关注
01 Agent 多轮训练贵在哪:不是步数长,是关键决策太稀
多轮agent的RL训练为什么这么难,业内习惯归咎于「长horizon」——步数一多,奖励信号回传到每一步就变弱。这篇Mila的工作把账重新算了一遍:真正决定成本的不是步数,而是决策密度ρ,也就是一整条轨迹里「真正改变回报分布」的那部分动作的占比。多轮任务里大量动作是必要但reward等价的例行操作(点开页面、翻页、确认提交),它们对最终结果没有区分度,却照样被算进轨迹级的梯度估计里,给GRPO这类方法平添方差而不带来期望信号——作者把这个现象叫signal dilution(信号稀释)。在可精确调节ρ的受控环境里,他们预测的「信噪比随ρ^(-1/2)衰减」几乎被完美复现(R²=0.999),ρ越接近0,达到同等效果所需的训练步数差距拉得越大。值得注意的是这套分析也指出了反面情形:当决策密度高时,轨迹级方法反而能保持竞争力,还省下了训练critic的开销,所以并不是「任何时候都该上critic」。这是一篇偏理论但落点清晰的工作,结论需要在更真实的agent环境里进一步验证,但它提供的视角对做credit assignment的人是有用的。
原文:Drowning in Routine: Signal Dilution in Multi-Turn Agent Training
02 分数涨了20个点,到底是真泛化还是背题?
可验证奖励强化学习(RLVR)在数学和代码上的成功,让人很容易默认它搬到科学领域也是在「推理」。但这篇ICML工作没急着报捷,而是先追问一个少有人拆解的问题:分数涨了,究竟是学会了结构迁移、性质迁移,还是单纯背下了训练集?为此它构造了Mat-Pref——10837道无机材料的离子替换题,背后是Materials Project的DFT计算数据,关键在于把测试集切成三块:分布内、完全没见过的结构家族、以及跨性质迁移(用只在能量监督下见过的材料去做带隙推理)。结果先泼了盆冷水:四个70B到671B的前沿模型零样本在每一块上都只有33%-54%,规模本身解决不了这种组合化学推理。真正有意思的是机制层面的发现——SFT之后的模型其实已经能采样出正确答案,只是没法把它变成最高频的输出;GRPO做的不是教会新知识,而是重塑分布,让正确答案从「够得着」变成「默认选项」,logit lens能看到关键决策层上答案「结晶」的优势约20个百分点。
原文:Mat-Pref: Verifiable-Reward Training Improves Compositional Reasoning in Inorganic Materials
03 可解释性 模型预测得准,不代表它的「解释」能信
蛋白质语言模型在过敏原预测上准确率已经很高,于是有人顺势把它的residue级归因(模型认为哪些氨基酸位点重要)拿来当证据,用于新食品的安全筛查——言下之意是「模型看懂了哪里有问题」。这篇ETH的工作建了一个以真实过敏原表位(epitope,引发免疫反应的关键片段)为基准的评测,结论很扎实地泼了盆冷水:在ESM-2、多任务ESM-2和DeepPlantAllergy上,蛋白质级分类很稳,但residue级的归因和真实表位的对齐程度跟随机猜没有显著差别(AUROC、AUPRC、Precision@k全线如此)。更微妙的是,Integrated Gradients确实找出了「对模型重要」的位点,但这些位点跟标注的表位不重合;饱和突变进一步暗示分类器可能靠的是理化性质和氨基酸组成这类表层特征,而非表位特异的免疫机制。换句话说,预测对≠解释对,在高风险筛查里把归因当生物学证据用,是把模型的「捷径」误读成了「洞见」。
原文:Residue-Level Attributions in Protein Language Models Do Not Recover Allergen Epitopes
04 机器人 大家都在用的预训练技巧,为什么终于有人证明它管用了
训练机器人模仿专家动作有个老办法叫对抗式模仿学习(AIL)——它比简单照搬专家轨迹的行为克隆(BC)更接近真实表现,但代价是要烧掉大量在线环境交互。业界早就在用一个经验技巧省成本:先用BC预训练好策略再上AIL,可没人说得清这为什么有效、能省多少。这篇ICML工作把问题拆开看,发现光预训练策略不够——真正的瓶颈是奖励函数(reward)从头学带来的误差,而这块一直没人预训练。于是作者提出CoPT-AIL,用同一套BC流程把策略和奖励一起预训练,并证明它的模仿差距上界优于标准AIL,第一次给「预训练加速AIL」这件事补上了理论保证。这是篇扎实的理论工作,把一个工程直觉补成了数学解释,但实验只验证了优于现有AIL方法,落到具体机器人任务上能省多少交互还得看全文。
原文:Provably Efficient Policy-Reward Co-Pretraining for Adversarial Imitation Learning

也值得关注
今日观察
今天两篇AI-for-science的工作其实毫不相关——一篇在拆解材料推理(Mat-Pref),一篇在质疑蛋白质模型的归因——却在同一处使力:模型在科学任务上分数漂亮,不等于它真的抓住了底层结构。Mat-Pref专门去拆「涨分到底来自结构迁移还是记忆」,发现SFT其实已经能采样到正确答案,RL只是把它推成默认输出;蛋白质那篇则发现分类准得很稳,但residue级归因和真实表位的对齐跟随机猜没差别。一个在追问「分数从哪来」,一个在追问「解释能不能信」,落点是同一句话:任务准确率高,不代表模型内部捕获了真实机制。这跟「代理指标≠真目标」那类优化错位是两回事——这里的问题出在表征和解释的可信度上,benchmark分数本身没说谎,是我们从分数往机制上的倒推太想当然了。所以这不是「科学ML被高估」的一刀切,而是个方法论提醒:在科学场景里要判断模型学没学到真东西,得专门设计探针——切分泛化来源、拿真实标注做归因对齐基准——而不能默认高分就等于理解。下次把模型用到科学筛查或材料发现这类高风险决策前,先问一句:我有没有一个独立于benchmark分数的探针,能验证它抓的是机制而不是捷径?