DeltaNet拆双门,Maestro压GPT-5

今日概览

linear attention的瓶颈不是速度而是state编辑粒度——Gated DeltaNet-2把scalar gate拆成channel-wise的擦除与写入双门,在Mamba-2、KDA、Mamba-3之中拿到最强综合表现,长上下文检索任务上提升最显著。
表格agent正式进入RL训练阶段:Spreadsheet-RL搭多轮沙箱训出来的Qwen3-4B在SpreadsheetBench上Pass@1从12%翻到23.4%,但复杂任务的绝对值离生产还差距离。
reasoning的载体可以不是文本,LatentOmni让audio-visual推理在unified latent space里穿插音视频状态而不压成离散token,绕开CoT被语言先验拽走的老问题。
4B编排器在十个benchmark上压过GPT-5和Gemini-2.5-Pro——Maestro用outcome-based RL学怎么调度frozen专家,层级稀疏reward的训练稳定性abstract却回避了。

重点关注

01 模型架构 linear attention真正的瓶颈,从来不是速度

linear attention这两年的演进路线开始浮现一个判断:DeltaNet→KDA→Gated DeltaNet-2,关键不在attention算得多快,而在recurrent state的edit primitive一直太粗。具体说,delta-rule这条线用一个scalar gate同时控制两件事——key侧擦除多少旧内容,value侧写入多少新内容,但这两件事本质上不是同一回事。NVIDIA Labs这次的做法是把scalar拆成channel-wise的擦除门和写入门,让每个通道独立决定要擦多少、要写多少。形式上它还往回兼容:两个门塌缩成scalar就退化为KDA,decay再塌缩就是Gated DeltaNet,所以可以理解成前两者的超集。1.3B参数在100B tokens上训练,在Mamba-2、Gated DeltaNet、KDA、Mamba-3之中拿到最强综合表现,而最显著的提升出现在RULER长上下文检索任务上——这恰好是edit primitive最被考验的场景:反复读写但不能搞乱已有关联。所以这篇真正的看点不是某个benchmark数字,而是linear attention这条线的下一步落点已经清晰:擦除和写入解耦只是第一步,通道级控制粒度还会继续往下走。

linear attention的瓶颈正从「算多快」转向「state编辑多精细」,这条隐线索值得长期跟踪做长上下文检索/Agent记忆的团队选型时,edit primitive设计比整体吞吐更决定最终效果Gated DeltaNet-2是阶段不是终点,关注这条线的话可以预期更细粒度的控制门会陆续出现。

原文:Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention

02 Agent RL训一个表格agent,中小团队复制得起吗?

prompt+ReAct套通用LLM做Excel/Sheets agent,简单填数、查找够用,碰到多步复杂工作流就崩。Spreadsheet-RL是第一篇把RL训练正经做到真实Excel环境的工作:搭了Spreadsheet Gym多轮RL沙箱,从论坛自动抓start-goal配对表格,还做了finance、供应链方向的Domain-Spreadsheet数据集。Qwen3-4B在SpreadsheetBench上Pass@1从12%翻到23.4%,domain任务从8.4%提到17.2%——倍数提升明显,但绝对值离生产还有距离。论文自己也指出prompt-based agent处理简单操作够用,复杂任务才是RL训练真正能补的位。对应用层团队真正的判断点不是SOTA数字,而是RL训domain-specialized agent的算力门槛能不能在中小团队复制——这决定了这条路线是不是行业普遍方向。

Excel/Sheets agent从prompt+ReAct进入RL训练阶段,复杂多步任务首次有了认真的训练侧打法Pass@1翻倍但绝对值仍在17-23%区间,离生产可用还有差距,小心拿数字外推真正的判断点是RL训domain-specialized agent的算力成本能否在中小团队复制,这决定它会不会成为行业普遍方向

原文：Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

03 多模态推理为什么默认要长成文字的样子?

中间推理必须以文字的形式写出来——这个前提随CoT被默默接受下来。LatentOmni把这个前提单拎出来质疑——audio-visual本就是连续信号,被压成离散token再走文字CoT之后,时空对应大半丢了,推理路径还会被语言先验往句法工整的方向拽走。他们的做法是让推理过程在latent space里穿插音视频状态,而不是只走文本token,再用Omni-Sync位置编码把音视频时间轴对齐。在多个audio-visual benchmark上超过显式文本CoT,也是开源模型里最好的。真正该带走的不是「latent CoT好多少」,而是reasoning的载体本来就不必是文本——尤其在连续信号占主导的场景下。

CoT默认reasoning必须以文字为medium,这个前提对连续信号(音视频)的成立性最弱离散token化会让时空grounding大量损耗,latent space推理保留原信号的密集信息做多模态推理时,reasoning medium本身可能比prompt和数据更值得当变量去改

原文:LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

04 Agent 4B编排器跑赢GPT-5,稀疏reward这道坎abstract回避了

Maestro把多模态任务拆成「调哪个expert+用哪个skill」的序列决策，一个4B的轻量策略靠outcome-based RL学怎么编排一组frozen专家。十个benchmark平均70.1%，压过GPT-5（69.3%）和Gemini-2.5-Pro（68.7%），换上没见过的专家还能generalize——数字很漂亮。但摘要回避了一个关键问题：orchestration policy拿到的是任务级reward，多步层级决策上信号非常稀疏，hierarchical RL在这种setting的训练稳定性是已知坑，credit assignment和奖励shaping怎么处理，abstract里没讲。抛开训练侧的疑问，小模型当编排器+frozen专家这个架构本身是干净的，registry可换不用retrain这条对长期可演进性尤其有价值。做agent框架架构选型的团队值得跟进,但下结论前要把method section里的训练曲线和方差看清楚——判断这是工程实现的胜利还是RL层面的真突破。

4B编排器+frozen专家在10个benchmark上压过GPT-5和Gemini-2.5-Pro，「不必把所有能力塞进单一大模型」这条路得到一次正面验证hierarchical RL在任务级稀疏reward下的训练稳定性是abstract回避的关键，要看method section而不是只看数字做agent框架架构选型的团队值得跟进编排式路线，但训练动态没看清前别急着复现

原文：Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

也值得关注

公交规划用13M条换乘记录做continual pretraining,绕开routing engine 推理TransitLM正面测试结构化任务能不能用纯预训练替代专用系统,而不是又一个RAG增强。arxiv

MLLM给人物视频打Big Five,要求用具体行为ground评分 评测把「感知」和「刻板印象」拆开评测,methodology对其他主观判断类任务也有参考价值。arxiv

CUSP用cutoff前知识预测cutoff后真实发生的科学进展 AI for Science跨学科event-level评估,比起「AI能写论文吗」,这个问法更接近forecasting的本意。arxiv

Sensor2Sensor把dashcam视频转换到AV车队的sensor配置接入ADS训练 机器人让long-tail覆盖从数据采集问题转成sensor转换问题。arxiv

SpaceDG给空间推理benchmark加上motion blur、低光、压缩artifacts 评测现有benchmark几乎都假设视觉输入干净,加degradation后可能显著拉低当前SOTA成绩。arxiv

SceneAligner把「you are here」扩展到真实大楼的raster floorplan定位 机器人过去方法默认vector floorplan和小尺度环境,这篇把场景放到真实公共建筑里。arxiv

今日观察

今天有两篇看起来毫不相关的论文,各自在不同子领域得到同一类设计选择。Gated DeltaNet-2动的是layer内部:把linear attention里recurrent state的单一scalar gate拆成channel-wise的擦除门和写入门,状态编辑的粒度提一档。LatentOmni动的是layer之间:audio-visual推理不再被压成离散text token,改走continuous latent space,reasoning trace的medium粒度也提一档。一个动的是同一层内的状态编辑,一个动的是层与层之间的推理轨迹——位置完全不同。

但两条独立研究线在不同位置撞上了同一面墙:模型内部「中间表示」的带宽偏窄。前者发现state的擦除和写入被一个scalar门捆得太死,后者发现reasoning被语言先验拽住——共性是过去默认的「中间步骤」粒度,可能已经卡住了下一步性能。这种跨子领域的方向收敛,比单篇论文里的benchmark数字更值得记下来——单点提升可以是trick,两条线撞同一面墙不太可能是巧合。

下次设计或评估模型时,可以专门把系统里的「中间表示」单独拎出来审视一遍——recurrent state、scratchpad、CoT trace、跨模态对齐缓存——看它们是不是仍在用过粗的primitive承载关键信息。如果是,把这一层的带宽往上提,投入产出可能比继续改外围结构更划算。