agent轨迹让30B打平235B

今日概览

  • 30B agent靠trajectory追平7倍参数模型:ACC把agent解题留下的tool use trajectory重构成长上下文QA对,Qwen3-30B训完MRCR从50.2拉到68.3,跟参数量约7倍的Qwen3-235B-A22B打平
  • video world model把长期记忆从attention负担里搬出来:WorldKV用retrieval加compression解耦「回头看一眼」的一致性需求,吞吐翻倍且无需fine-tune
  • DiT高分辨率推理转向content-aware scaling:SEGA按spectral energy差异化处理RoPE不同频率成分,避开均匀缩放在结构与细节之间的二选一
  • 8万条terminal录屏反向工程出1530个agent评测任务:TerminalWorld和Terminal-Bench这类专家curate集Pearson仅0.20,过去刷专家集得到的分数可能对不上真实开发者场景

重点关注

01 训练优化 训长上下文模型,数据可能就在你的agent日志里

长上下文训练数据一直卡在两个昂贵选项中间:要么去采集稀缺的人工长文档,要么靠规则合成造一个出来,两条路成本都不低。ACC的切入很意外——agent解题时产生的trajectory本身就是天然的「长文档」,多步tool call加上每一步的环境observation把证据自然散布到很远的上下文段落里,正好对应long-context真实要解决的问题分布。更关键的是,标准agent SFT只训turn-level的tool selection,把tool response直接mask掉——相当于把散落在远距离的监督信号当成盲区扔掉。ACC把search、SWE、database三类agent的trajectory重构成long-context QA对:原问题加上所有tool response和环境观察拼成长context,训模型直接给出答案而不再走tool use。Qwen3-30B-A3B训完,MRCR从50.2拉到68.3,GraphWalks从69.9拉到77.5,跟Qwen3-235B-A22B(参数量约7倍)打平,通用能力(GPQA、MMLU-Pro、AIME、IFEval)没退化。需要保留意见的是trajectory质量参差——不是所有agent log都能挑出高价值长样本,abstract没明确给出筛选标准,这部分要等method section或开源数据才能下判断。但对已经在跑agent的团队来说,意涵很直接:你硬盘里那些被当debug log扔着的trace,可能就是别人正在花钱合成的训练材料。

已经在跑agent的团队应该把trajectory log当训练资产系统盘点,而不只是debug素材标准agent SFT把tool response mask掉等于扔掉远距离监督信号,ACC让这块supervision盲区被回收训练trajectory筛选标准是判断这套方法能否复制的关键,abstract没讲清楚,等method或开源数据再下结论

原文:ACC: Compiling Agent Trajectories for Long-Context Training


02 视频生成 回头看一眼,video world model还能记得住吗?

做交互式视频世界模型最难处理的不是单帧质量,而是「回头一看」——玩家转身回到原地,那栋建筑应该还在原位。Full KV-cache能保住这种一致性,但显存和注意力开销随rollout长度线性增长,吞吐很快撑不住实时;sliding window跑得动,可一旦视野滑出窗口就当作没看过。WorldKV的做法是把这道单选题拆成两块独立子问题:World Retrieval把驱逐出窗口的KV块存到GPU/CPU内存,按相机/动作匹配按需调回原生注意力窗口;World Compression基于key-key相似度对每个块剪枝,让同样预算多装一倍历史。在Matrix-Game-2.0等基准上达到接近full-KV的保真度同时吞吐翻倍,整套框架不需要fine-tune。对在做交互式世界模型的团队,这套「把长期记忆从attention负担里搬出来」的工程思路比任何单一组件都更值得参考。

长期一致性和实时性的取舍可以靠「把历史挪出attention窗口」来解耦,不必二选一无需训练就能直接套到已有视频扩散模型上,迁移成本接近零关键工程价值在retrieval加compression的组合范式,单看任一组件都不是核心

03 图像生成 高分辨率DiT推理的均匀scaling可能在浪费频率信息

DiT在超出训练分辨率生成时会掉点,目前training-free的修复路线是RoPE extrapolation配合attention scaling,但这种scaling对所有RoPE频率成分一视同仁,结构和细节常常只能保一个。SEGA的观察是不同RoPE频率成分本身就对应不同尺度的图像内容,于是用latent的spectral energy去引导每一步denoising时的scaling幅度,让缩放变成content-aware。思路朴素但目标清晰:把「均匀缩放」的妥协换成按内容分配的scaling预算,在多个目标分辨率上都跑赢了现有training-free baseline。对正在做高分辨率推理的图像生成团队,这是一个不需要重训就能接入现有DiT评估的改动。

training-free的高分辨率推理路线在朝content-aware方向收敛SEGA按spectral energy差异化处理不同RoPE频率成分,避开结构与细节二选一不需要重训即可接入现有DiT推理流程做对照评估。

04 评测 8万条录屏倒推出1530个agent评测任务

TerminalWorld从80,870条在野的terminal recordings里反向工程出1,530个验证过的任务,覆盖18个真实类别、1,280条unique命令,工作流长度从短日常操作覆盖到超过50步。相比之下,手工curate的agent benchmark既容易偏离真实分布、规模也拉不起来,任务来源始终是这类评测绕不开的硬约束。意外的发现是这套自动构建的benchmark和Terminal-Bench这类专家curate的评测Pearson相关只有0.20——过去刷专家集得到的agent分数,可能不太对得上真实开发者场景的实际表现。方法论比具体数字更值得参考:有原始操作日志的团队,评测集可以从日志里系统性蒸出来,不必再走人工标注的贵路。

benchmark从手工curate转向数据反向工程是规模化的可行路径专家集和真实分布Pearson 0.20的弱相关意味着内部评测可能需要换数据源最强agent在verified子集上pass rate也只有62.5%,真实terminal workflow仍是难题
agent轨迹让30B打平235B

也值得关注

05
flow matching应该跑在DINOv2 representation space而不是pixel或SD-VAE 模型架构表征空间的几何属性对flow matching学习更友好。链接
06
agentic reasoning不该让CoT隐式承担planning Agent论文把决策拆成3个system让agent显式决定何时plan、何时act。链接
07
SAM 2直接迁到visual object tracking效果不够 多模态论文加了motion、geometry、semantic三路适配应对干扰物、遮挡、非线性运动。链接
08
一句话生成短剧的多agent流水线 视频生成针对叙事节奏、空间一致性、量产质控三个具体痛点而不是一锅炖。链接
09
用Taylor series识别视频中的「时间惊异点」做frame selection 多模态training-free,思路和predictive coding直觉对齐。链接
10
model search本质是comparative的 检索基于model card的结构化table做发现比纯文本相似度更能拉开候选alternatives。链接
11
fashion image retrieval的task-adaptive统一框架 检索覆盖多种query format和搜索意图,电商场景可直接对照。链接

今日观察

ACC和TerminalWorld表面在做不同的事——一个生成训练数据、一个生成评测任务——但走的是同一条路:把自然产生的计算轨迹回收成高价值数据资产。ACC把agent解题留下的多步tool use trajectory当成长上下文训练材料;TerminalWorld从8万条真实terminal recordings反向工程出评测任务。两者同时绕开了传统NLP数据准备的两个高成本中心——长文档的人工curate和benchmark的人工标注。对从业者的直接意涵很具体:如果团队已经在线上跑agent,或者产品里有用户在产生命令行/工具调用的trace,这些log已经是潜在的训练和评测资产,问题只在有没有意识到要系统性回收,以及如何过滤出有用样本。今天可以做的一件事:把团队手上还没归档的agent或工具调用日志列一下量级和留存周期,先把它纳入数据基础设施的视野,再去判断要不要建过滤pipeline。