Entropy在骗你,隐式推理止于7步

今日概览

  • Entropy稳定不代表推理健康。 RAGEN-2发现agentic RL中的「模板坍缩」——模型用固定模板应对所有输入,entropy完全看不出来,互信息才是更可靠的训练监控指标
  • Meta试图让模型本身成为计算机——Neural Computer统一计算、记忆和I/O,概念有启发性,但核心难题尚未解决,当方向信号看
  • 隐式推理存在硬性深度上限: 最大规模模型的latent planning也止步于7步,scaling未能突破,CoT监控的安全前提因此获得实验支撑
  • GRPO训练难题比例并非越高越好, 超出小模型能力边界的样本几乎贡献不了学习信号,低难度子集即可匹配全数据集效果且省55%计算

重点关注

01 Agent Entropy正常不代表推理正常——Agentic RL中的模板坍缩

用RL训练多轮Agent有一个被广泛信任的健康指标:entropy。训练过程中entropy保持稳定,通常被认为模型在正常探索。RAGEN-2揭示了一个更隐蔽的问题:模型可以在entropy完全正常的情况下,学会用一套固定模板应对所有输入——输出看起来多样,但推理路径跟具体输入无关。作者把这种现象叫做template collapse(模板坍缩),现有的训练监控指标完全检测不到它。诊断方案是引入互信息(MI)来衡量推理是否真正区分了不同输入,实验显示MI与最终任务性能的相关性远高于entropy。背后的机制也讲得清楚:reward方差低时,任务梯度信号太弱,正则化项主导优化,抹平了输入间的推理差异。对应的修复方法根据reward方差筛选高信号prompt,在规划、数学推理、网页导航、代码执行四类任务上都有一致提升。做agentic RL的团队值得重新审视自己的训练监控——entropy可能一直在给你假的安全感。

entropy只衡量同一输入下的多样性,无法发现模型对不同输入给出相同推理模板的「模板坍缩」互信息是比entropy更可靠的训练健康指标,做agentic RL的团队值得加入监控修复思路简单——按reward方差过滤低信号prompt,让任务梯度重新主导优化

02 模型架构 让模型本身变成一台计算机?Meta画了张很大的饼

Agent调工具、world model学环境动态——这两条路已经够热闹了,Meta又开了第三条:干脆让模型自己变成计算机,把计算、记忆和I/O统一到模型的运行状态里。听起来很大胆,但目前的实现是什么?用视频模型逐帧生成屏幕画面——输入指令和像素,输出下一帧。实验表明它能学会基本的I/O对齐和短时序控制,但routine复用、可控更新、符号稳定性都还是open problem。说白了这是一篇vision paper,描述的是长期愿景,离它定义的「完全神经计算机」还有大量未解决的核心挑战。

Neural Computer试图让模型本身承担计算机角色,区别于agent和world model两种现有范式目前只验证了最基础的I/O原语,核心难题(记忆复用、符号稳定性)尚未解决概念有启发性但离工程落地很远,当方向信号看而非技术方案

03 推理 模型的「暗中推理」能力,天花板在哪?

GPT-5.4在graph path-finding任务上的latent planning(隐式规划)深度最多到7步——这是目前测到的上限。实验用图路径搜索精确控制所需推理步数:从零训练的小Transformer发现3步策略,fine-tuned GPT-4o和Qwen3-32B到5步,大规模scaling没有带来量级突破。值得注意的是,训练阶段最多发现5步策略,但推理时能泛化到8步,说明「发现策略」和「执行策略」是可分离的能力。这个天花板直接关系到CoT监控的安全前提——如果复杂推理无法在单次forward pass中隐式完成,模型就必须外显推理过程,监控才有效。但这个ceiling能否从graph任务推广到更广泛的真实场景,需要看后续工作。

latent planning存在深度上限(5-7步),大规模scaling未能突破这个量级策略发现和策略执行是可分离能力,训练学到5步但推理可泛化到8步CoT监控的可信度取决于这个ceiling在真实任务中是否同样成立

04 训练优化 难题练多了反而没用:GRPO调小模型的数据配比陷阱

3B以下模型用GRPO(Group Relative Policy Optimization)做数学推理对齐时,存在一个清晰的难度边界:随着题目难度提升,准确率很快进入平台期,超出模型当前推理能力的样本几乎贡献不了学习信号。这篇ICLR工作的解释是,GRPO本质上是在重新分配输出偏好,不能凭空创造模型没有的推理能力。更实用的发现是,只用低难度题训练就能匹配全数据集的效果,而且只需要约45%的训练步数。还有一个值得注意的迁移现象:在GSM8K上训的GRPO,在MATH数值子集上反而比直接在MATH上训的高出3-5个百分点,简单数据集学到的推理模式可能泛化得更好。

超过小模型能力边界的难样本回报递减,数据配比需要匹配模型容量低难度子集训练可节省约55%计算成本且不损失效果用RL调小模型的团队可以直接参考这个难度分层策略优化数据配比
Entropy在骗你,隐式推理止于7步

也值得关注

05
应用层多agent编排OS AgentQualixar OS跨10个LLM provider统一调度,与AutoGen/CrewAI等单框架工具形成差异化定位。链接
06
压缩注意力解决时序预测的双重平方复杂度 模型架构CMU提出MICA,同时处理多变量Transformer中通道数和序列长度的扩展瓶颈。链接
07
570万PubMed文章的结论生成benchmark AI for ScienceHarvard出品,测试LLM能否从结构化生物医学证据推导科学结论。链接
08
500米+超远距离目标检测 机器人Princeton用可学习双曲注视替代固定crop策略,面向高速公路自动驾驶的长距感知。链接
09
物理仿真级头部avatar 图像生成CVPR接收,解决头发与头部的解耦和动态运动问题。链接

今日观察

推理优化正在积累一类特殊的知识:哪些改进策略在什么条件下停止生效。今天三个failure mode覆盖了三个层面的失效点——RAGEN-2发现entropy在reward方差低时与推理多样性脱钩,Depth Ceiling发现模型规模在latent planning深度上碰到scaling无法突破的硬顶,GRPO发现训练难度超出模型容量后学习信号反转为负。共同结构不是「推理很难」,而是每个优化维度都存在一个proxy gap:标准指标开始欺骗你的临界点。识别这些临界点比继续沿着指标爬坡更有工程价值。具体建议:在RL训练pipeline中,为每个关键代理指标(entropy、loss、难度分布)配一个直接行为度量(如互信息、分层成功率)做交叉验证,当两者趋势分离时,你已经到了边界。