今日概览
- linear attention的瓶颈不是速度而是state编辑粒度——Gated DeltaNet-2把scalar gate拆成channel-wise的擦除与写入双门,在Mamba-2、KDA、Mamba-3之中拿到最强综合表现,长上下文检索任务上提升最显著。
- 表格agent正式进入RL训练阶段:Spreadsheet-RL搭多轮沙箱训出来的Qwen3-4B在SpreadsheetBench上Pass@1从12%翻到23.4%,但复杂任务的绝对值离生产还差距离。
- reasoning的载体可以不是文本,LatentOmni让audio-visual推理在unified latent space里穿插音视频状态而不压成离散token,绕开CoT被语言先验拽走的老问题。
- 4B编排器在十个benchmark上压过GPT-5和Gemini-2.5-Pro——Maestro用outcome-based RL学怎么调度frozen专家,层级稀疏reward的训练稳定性abstract却回避了。
重点关注
01 模型架构 linear attention真正的瓶颈,从来不是速度
linear attention这两年的演进路线开始浮现一个判断:DeltaNet→KDA→Gated DeltaNet-2,关键不在attention算得多快,而在recurrent state的edit primitive一直太粗。具体说,delta-rule这条线用一个scalar gate同时控制两件事——key侧擦除多少旧内容,value侧写入多少新内容,但这两件事本质上不是同一回事。NVIDIA Labs这次的做法是把scalar拆成channel-wise的擦除门和写入门,让每个通道独立决定要擦多少、要写多少。形式上它还往回兼容:两个门塌缩成scalar就退化为KDA,decay再塌缩就是Gated DeltaNet,所以可以理解成前两者的超集。1.3B参数在100B tokens上训练,在Mamba-2、Gated DeltaNet、KDA、Mamba-3之中拿到最强综合表现,而最显著的提升出现在RULER长上下文检索任务上——这恰好是edit primitive最被考验的场景:反复读写但不能搞乱已有关联。所以这篇真正的看点不是某个benchmark数字,而是linear attention这条线的下一步落点已经清晰:擦除和写入解耦只是第一步,通道级控制粒度还会继续往下走。
原文:Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
02 Agent RL训一个表格agent,中小团队复制得起吗?
prompt+ReAct套通用LLM做Excel/Sheets agent,简单填数、查找够用,碰到多步复杂工作流就崩。Spreadsheet-RL是第一篇把RL训练正经做到真实Excel环境的工作:搭了Spreadsheet Gym多轮RL沙箱,从论坛自动抓start-goal配对表格,还做了finance、供应链方向的Domain-Spreadsheet数据集。Qwen3-4B在SpreadsheetBench上Pass@1从12%翻到23.4%,domain任务从8.4%提到17.2%——倍数提升明显,但绝对值离生产还有距离。论文自己也指出prompt-based agent处理简单操作够用,复杂任务才是RL训练真正能补的位。对应用层团队真正的判断点不是SOTA数字,而是RL训domain-specialized agent的算力门槛能不能在中小团队复制——这决定了这条路线是不是行业普遍方向。
03 多模态 推理为什么默认要长成文字的样子?
中间推理必须以文字的形式写出来——这个前提随CoT被默默接受下来。LatentOmni把这个前提单拎出来质疑——audio-visual本就是连续信号,被压成离散token再走文字CoT之后,时空对应大半丢了,推理路径还会被语言先验往句法工整的方向拽走。他们的做法是让推理过程在latent space里穿插音视频状态,而不是只走文本token,再用Omni-Sync位置编码把音视频时间轴对齐。在多个audio-visual benchmark上超过显式文本CoT,也是开源模型里最好的。真正该带走的不是「latent CoT好多少」,而是reasoning的载体本来就不必是文本——尤其在连续信号占主导的场景下。
原文:LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
04 Agent 4B编排器跑赢GPT-5,稀疏reward这道坎abstract回避了
Maestro把多模态任务拆成「调哪个expert+用哪个skill」的序列决策,一个4B的轻量策略靠outcome-based RL学怎么编排一组frozen专家。十个benchmark平均70.1%,压过GPT-5(69.3%)和Gemini-2.5-Pro(68.7%),换上没见过的专家还能generalize——数字很漂亮。但摘要回避了一个关键问题:orchestration policy拿到的是任务级reward,多步层级决策上信号非常稀疏,hierarchical RL在这种setting的训练稳定性是已知坑,credit assignment和奖励shaping怎么处理,abstract里没讲。抛开训练侧的疑问,小模型当编排器+frozen专家这个架构本身是干净的,registry可换不用retrain这条对长期可演进性尤其有价值。做agent框架架构选型的团队值得跟进,但下结论前要把method section里的训练曲线和方差看清楚——判断这是工程实现的胜利还是RL层面的真突破。
原文:Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

也值得关注
今日观察
今天有两篇看起来毫不相关的论文,各自在不同子领域得到同一类设计选择。Gated DeltaNet-2动的是layer内部:把linear attention里recurrent state的单一scalar gate拆成channel-wise的擦除门和写入门,状态编辑的粒度提一档。LatentOmni动的是layer之间:audio-visual推理不再被压成离散text token,改走continuous latent space,reasoning trace的medium粒度也提一档。一个动的是同一层内的状态编辑,一个动的是层与层之间的推理轨迹——位置完全不同。
但两条独立研究线在不同位置撞上了同一面墙:模型内部「中间表示」的带宽偏窄。前者发现state的擦除和写入被一个scalar门捆得太死,后者发现reasoning被语言先验拽住——共性是过去默认的「中间步骤」粒度,可能已经卡住了下一步性能。这种跨子领域的方向收敛,比单篇论文里的benchmark数字更值得记下来——单点提升可以是trick,两条线撞同一面墙不太可能是巧合。
下次设计或评估模型时,可以专门把系统里的「中间表示」单独拎出来审视一遍——recurrent state、scratchpad、CoT trace、跨模态对齐缓存——看它们是不是仍在用过粗的primitive承载关键信息。如果是,把这一层的带宽往上提,投入产出可能比继续改外围结构更划算。