今日概览
- 30B agent靠trajectory追平7倍参数模型:ACC把agent解题留下的tool use trajectory重构成长上下文QA对,Qwen3-30B训完MRCR从50.2拉到68.3,跟参数量约7倍的Qwen3-235B-A22B打平
- video world model把长期记忆从attention负担里搬出来:WorldKV用retrieval加compression解耦「回头看一眼」的一致性需求,吞吐翻倍且无需fine-tune
- DiT高分辨率推理转向content-aware scaling:SEGA按spectral energy差异化处理RoPE不同频率成分,避开均匀缩放在结构与细节之间的二选一
- 8万条terminal录屏反向工程出1530个agent评测任务:TerminalWorld和Terminal-Bench这类专家curate集Pearson仅0.20,过去刷专家集得到的分数可能对不上真实开发者场景
重点关注
01 训练优化 训长上下文模型,数据可能就在你的agent日志里
长上下文训练数据一直卡在两个昂贵选项中间:要么去采集稀缺的人工长文档,要么靠规则合成造一个出来,两条路成本都不低。ACC的切入很意外——agent解题时产生的trajectory本身就是天然的「长文档」,多步tool call加上每一步的环境observation把证据自然散布到很远的上下文段落里,正好对应long-context真实要解决的问题分布。更关键的是,标准agent SFT只训turn-level的tool selection,把tool response直接mask掉——相当于把散落在远距离的监督信号当成盲区扔掉。ACC把search、SWE、database三类agent的trajectory重构成long-context QA对:原问题加上所有tool response和环境观察拼成长context,训模型直接给出答案而不再走tool use。Qwen3-30B-A3B训完,MRCR从50.2拉到68.3,GraphWalks从69.9拉到77.5,跟Qwen3-235B-A22B(参数量约7倍)打平,通用能力(GPQA、MMLU-Pro、AIME、IFEval)没退化。需要保留意见的是trajectory质量参差——不是所有agent log都能挑出高价值长样本,abstract没明确给出筛选标准,这部分要等method section或开源数据才能下判断。但对已经在跑agent的团队来说,意涵很直接:你硬盘里那些被当debug log扔着的trace,可能就是别人正在花钱合成的训练材料。
原文:ACC: Compiling Agent Trajectories for Long-Context Training
02 视频生成 回头看一眼,video world model还能记得住吗?
做交互式视频世界模型最难处理的不是单帧质量,而是「回头一看」——玩家转身回到原地,那栋建筑应该还在原位。Full KV-cache能保住这种一致性,但显存和注意力开销随rollout长度线性增长,吞吐很快撑不住实时;sliding window跑得动,可一旦视野滑出窗口就当作没看过。WorldKV的做法是把这道单选题拆成两块独立子问题:World Retrieval把驱逐出窗口的KV块存到GPU/CPU内存,按相机/动作匹配按需调回原生注意力窗口;World Compression基于key-key相似度对每个块剪枝,让同样预算多装一倍历史。在Matrix-Game-2.0等基准上达到接近full-KV的保真度同时吞吐翻倍,整套框架不需要fine-tune。对在做交互式世界模型的团队,这套「把长期记忆从attention负担里搬出来」的工程思路比任何单一组件都更值得参考。
原文:WorldKV: Efficient World Memory with World Retrieval and Compression
03 图像生成 高分辨率DiT推理的均匀scaling可能在浪费频率信息
DiT在超出训练分辨率生成时会掉点,目前training-free的修复路线是RoPE extrapolation配合attention scaling,但这种scaling对所有RoPE频率成分一视同仁,结构和细节常常只能保一个。SEGA的观察是不同RoPE频率成分本身就对应不同尺度的图像内容,于是用latent的spectral energy去引导每一步denoising时的scaling幅度,让缩放变成content-aware。思路朴素但目标清晰:把「均匀缩放」的妥协换成按内容分配的scaling预算,在多个目标分辨率上都跑赢了现有training-free baseline。对正在做高分辨率推理的图像生成团队,这是一个不需要重训就能接入现有DiT评估的改动。
原文:SEGA: Spectral-Energy Guided Attention for Resolution Extrapolation in Diffusion Transformers
04 评测 8万条录屏倒推出1530个agent评测任务
TerminalWorld从80,870条在野的terminal recordings里反向工程出1,530个验证过的任务,覆盖18个真实类别、1,280条unique命令,工作流长度从短日常操作覆盖到超过50步。相比之下,手工curate的agent benchmark既容易偏离真实分布、规模也拉不起来,任务来源始终是这类评测绕不开的硬约束。意外的发现是这套自动构建的benchmark和Terminal-Bench这类专家curate的评测Pearson相关只有0.20——过去刷专家集得到的agent分数,可能不太对得上真实开发者场景的实际表现。方法论比具体数字更值得参考:有原始操作日志的团队,评测集可以从日志里系统性蒸出来,不必再走人工标注的贵路。
原文:TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

也值得关注
今日观察
ACC和TerminalWorld表面在做不同的事——一个生成训练数据、一个生成评测任务——但走的是同一条路:把自然产生的计算轨迹回收成高价值数据资产。ACC把agent解题留下的多步tool use trajectory当成长上下文训练材料;TerminalWorld从8万条真实terminal recordings反向工程出评测任务。两者同时绕开了传统NLP数据准备的两个高成本中心——长文档的人工curate和benchmark的人工标注。对从业者的直接意涵很具体:如果团队已经在线上跑agent,或者产品里有用户在产生命令行/工具调用的trace,这些log已经是潜在的训练和评测资产,问题只在有没有意识到要系统性回收,以及如何过滤出有用样本。今天可以做的一件事:把团队手上还没归档的agent或工具调用日志列一下量级和留存周期,先把它纳入数据基础设施的视野,再去判断要不要建过滤pipeline。