T²PO稳多轮RL+视频缓存提速6倍

今日概览

  • 多轮agent RL崩溃的真凶可能不是credit assignment:T²PO用模型自身不确定性触发「thinking」和重采样,在WebShop/ALFWorld/Search QA上稳定性和表现都涨,ICML中稿。
  • factuality的瓶颈是元认知,不是知识量——立场文指出模型仍然不知道自己不知道,校准过的不确定性才是Agent可靠性栈的隐形控制层。
  • 医疗agent上岗判分卡:PhysicianBench把100个真实会诊搬进商用EHR环境,平均27次工具调用,最强agent pass@1只有46%、开源最高19%。
  • 视频生成cache的pixel级修复:MotionCache用帧差给每个pixel分配去噪步数,SkyReels-V2拿到6.28倍加速、MAGI-1只有1.64倍,迁移效果高度依赖底层模型。
  • 如果attention本质上是动态参数MLP:WeightFormer把attention数学上重写成参数动态预测的MLP,线性化架构的设计目标从「逼近softmax」变成「怎么动态预测好参数」。

重点关注

01 训练优化 多轮agent RL训练崩溃的真凶可能不是credit assignment

跑过multi-turn RL训练reasoning LLM的团队都熟悉那种崩溃曲线:奖励刚开始爬升,几百步后突然塌掉。常见解释是credit assignment不到位、轨迹过滤不够细,T²PO提出的诊断不一样:policy一直在生成「低信息动作」,既没减少模型自己的不确定性,也没从环境拿到有效信号,整轮rollout就是在原地打转。它的处理分两层:token级监控不确定性的边际变化,跌破阈值就触发一次「thinking」介入;turn级识别探索进展可忽略的交互,直接重采样掉。在WebShop、ALFWorld、Search QA三个环境上训练稳定性和最终表现都有提升,论文被ICML接收,有开源代码。需要看全文确认的是阈值怎么调、不同任务上的迁移性,但「用模型自身不确定性主动控制探索」这条路径,跟主流的credit assignment+trajectory filter是正交的。

多轮agent RL不稳定,先排查探索效率,不要只在credit assignment上叠trick模型自身的不确定性可以作为训练时主动信号,不只是推理时的置信度正在跑多轮agent训练的团队可以拿这个思路直接对比自己当前的稳定化方案。

02 安全对齐 模型不是不会答,是不知道自己不该答

过去几年factuality的提升,主要靠让模型多记事实——把知识边界往外推。但作者指出一个被忽视的层次:模型仍然不知道自己不知道,所以即使在最简单的factoid QA上也照样自信地胡说。论文主张跳出「答还是不答」的二元选择,引入第三条路——让模型把语言上的不确定性和内在不确定性对齐,也就是metacognition(元认知)。对工具开发者来说,这一层在搭可靠性栈时很容易被越过去——通常加个RAG或者拒答阈值就交差了,但底下那个「模型自身的不确定性是否被忠实表达」才是真问题。需要注意的是这是立场文,作者承认这件事内在困难、也没给出落地方案,所以现阶段只是把问题命名清楚。

大多数factuality提升来自「多记」而非「知道自己不知道」,工程上容易混淆这两条路对Agent系统来说,校准过的不确定性就是决定何时检索、何时信任的控制层这是立场文不是方法论,落地手段仍是开放问题

03 评测 医疗agent该不该上岗,这张判分卡比排行榜更值得看

之前的医疗agent benchmark大多停在静态知识题或单步操作——背medical QA、模拟一次开药决策——跟真实临床工作流的距离很远。PhysicianBench把100个真实会诊案例搬进电子病历(EHR)环境,用商用EHR厂商同款API做交互,平均每个任务要调27次工具,跨encounter拉数据、做决策、写病历,全流程有可验证的执行反馈。670个checkpoint按阶段打分,13个agent跑下来最强的pass@1只有46%,开源模型最多19%。差距不小,但更重要的是这个评测真的在测临床上岗能力,而不是医学考试分数。

医疗agent的核心难点是长程、复合、跨encounter的工作流,单步QA类benchmark已经说明不了问题做垂直医疗agent的团队应该把这类execution-grounded评测当作上线前判分卡46% vs 19%的proprietary—open-source差距说明开源在长程tool-use上还有明显补课空间

04 推理加速 视频生成跳步加速的盲区在哪?

同一帧里,运动剧烈的物体边缘和近乎静止的背景被cache一视同仁——这是当前AR视频生成跳步加速的盲区。根源在于cache reuse停在chunk-level的粗粒度,把整段时间窗口当成一个整体决定要不要复用,对静态背景没事,对快速运动的物体就直接出现误差累积。MotionCache把粒度推到pixel级,用相邻帧差作为运动量的轻量代理,运动大的pixel多跑几步去噪、静止区域激进复用。在SkyReels-V2和MAGI-1上分别拿到6.28倍和1.64倍加速,VBench质量基本无损。两个模型差距这么大说明加速比高度依赖底层结构,迁移到其他AR视频模型需要重新评估。

chunk-level的cache跳步对高运动pixel是盲区,用帧差做pixel级权重是直接的修复路径属于部署侧不动权重就能上的优化,做AR视频推理服务的可以直接试同方法在不同模型上加速比差4倍,迁移效果需要逐模型验证

05 模型架构 如果attention本质上是个动态参数MLP呢?

直觉上,attention的全局建模能力来自token之间的显式加权——这也是它必须O(N²)的根本原因。但WeightFormer给出了一个让人愣一下的数学重写:attention可以等价于一个参数被动态预测的MLP,所谓全局能力其实来自这些动态参数对全局上下文的压缩,而不是token-wise加权本身。从这个视角看,线性复杂度方案不必再围绕「如何逼近softmax attention」打转,可以直接去研究「怎么动态预测一个好的参数」。论文用视觉模型做了多种动态参数化策略的实验,证明这条路至少在中等尺度走得通。能不能扩到LLM尺度是另一回事,但这个重写本身已经足够打开新的设计空间。

attention可数学上重写为动态参数MLP,全局能力来自参数压缩而非显式token加权视角切换让线性化架构的设计空间从「逼近attention」转到「怎么动态预测好参数」视觉模型已验证可行,但能否扩到LLM尺度需要后续工作确认
T²PO稳多轮RL+视频缓存提速6倍

也值得关注

06
学生从自己真实学业里挑出80道agent解不出的题 评测— bilingual benchmark,比研究员闭门设计的题更接近用户实际碰到的失败。链接
07
让模型数重复符号数到出错 可解释性— 把「记忆模式 vs 真规则执行」的边界做成一个可量化的最小可靠性测试。链接
08
把agentic系统当token分配经济体来设计 Agent— 立场文重新框出四层经济结构,主张按token经济而不是文本生成评估agent。链接
09
2670万spatial proteomics patches + H&E + 临床三模态对比学习 AI for Science— Haiku在规模上是真做出来了,给空间生物学的多模态基模奠了一块底。链接
10
Brain MRI基模的SAE深层会feature collapse 可解释性— 作者用几何先验稳住SAE,给医学影像基础模型的可解释性补了一道工具。链接
11
游戏引擎合成数据的sim2real外观gap 图像生成— 再光追也跟真实图像有可见差距,作者给hybrid方案缩这道gap,做合成训练数据的可参考。链接

今日观察

今天有意思的不是某一篇,而是「long-horizon agent的可靠性」同时被四五个不同的层敲打。T²PO动训练稳定性那一层(多轮RL不崩);Metacognition动模型自我意识那一层(不知道自己不知道);PhysicianBench和AcademiClaw动任务定义那一层(去找现在解不了的真实长程任务);Counting probe动最小可靠性测试那一层(连数数都数不稳);Marginal Token Allocator动评估范式那一层(按token经济而不是文本生成评)。

每篇都在指认一个不同的失败位置,没有一篇在宣布突破。把它们拼到一起,浮现出来的隐含信号是:当下agent在真实长程任务上的不可靠不是单点问题,是分散在训练、自我认知、任务定义、最小测试、评估框架五个层面的共振。任何一层单独修都不够。

具体动作建议:如果你的团队正在做垂直Agent,挑一个最贴近自己业务的层先建监控——比如做医疗/法务这种长程tool-use场景,可以参考PhysicianBench把内部真实工作流的可验证执行链做成回归集;如果在跑多轮RL,把T²PO的「不确定性边际监控」加到训练日志里,比单看reward曲线更早能看出探索是否塌掉;如果在做evaluator,Counting probe这种最小可靠性测试值得加进CI而不是只跑大benchmark。