只保留256个token就能逼近全量注意力性能

今日概览

  • 只保留256个token就能逼近全量注意力性能,FASA发现RoPE位置编码中隐藏的频率级稀疏性,用它做token筛选,KV cache压缩到18.9%仍保持近100%准确率
  • 多Agent系统不预定义sub-agent,让系统根据任务需求实时「造」专用执行器。AOrchestra在GAIA/SWE-Bench/Terminal-Bench三项基准上相对提升16.28%
  • 训练SWE Agent不再需要Docker:SWE-World用学习到的环境模拟器替代容器化执行反馈,配合SWE-Master的后训练框架,开源32B模型在SWE-bench Verified上达到70.8%
  • 能预测Agent会失败,却未必能阻止它失败。LLM评审员介入后反而让一个模型性能暴跌26个百分点

重点关注

01 推理加速 256个token就够了?RoPE里藏着KV cache压缩的「免费午餐」

长上下文推理最大的成本不是计算,是KV cache的显存。动辄几十GB的缓存让消费级硬件望而却步。现有的token剪枝方案要么靠静态规则一刀切(可能丢关键信息),要么靠启发式策略动态选择(效果不稳定)。FASA找到了一个更优雅的切入点:RoPE位置编码的频率分块(frequency chunk)中,只有一小部分「主导」分块和完整注意力头高度一致——用这些分块来判断哪些token重要,几乎不需要额外计算。实验结果很有说服力:在LongBench上只保留256个token就达到full-KV近100%的性能,在AIME24上用18.9%的cache实现了2.56倍加速。同期另一篇HySparse也在攻同一个问题,思路是用少量全注意力层做「预言机」来指导稀疏层的token选择,80B MoE模型只需5层全注意力就能KV cache压缩近10倍

RoPE本身包含可利用的稀疏信号,这比学一个额外的重要性预测器更轻量256 token的实验结果说明大部分上下文信息是高度冗余的做推理部署的团队可以关注FASA和HySparse的互补性

02 Agent 不预定义工作流,让系统按需「造」Agent

多Agent系统越做越复杂,但有一个尴尬:sub-agent通常是预先定义好的,碰到新类型的子任务就抓瞎。AOrchestra提出了一个直觉上很自然的抽象——任何Agent都可以表示为⟨指令, 上下文, 工具, 模型⟩四元组。有了这个「配方」,系统不再维护固定的Agent库,而是由中心编排器在每一步根据任务需求实时构造专用Agent:选什么工具、用哪个模型、给什么上下文,全部动态决定。这样做的好处不只是灵活,还能做性能-成本的帕累托权衡——简单子任务用轻量模型,复杂的才上大模型。在GAIA、SWE-Bench、Terminal-Bench三项基准上,搭配Gemini-3-Flash时相对最强基线提升16.28%

Agent-as-tuple抽象把「造Agent」变成了组合问题而非工程问题动态模型选择天然支持成本控制这个框架是framework-agnostic的,理论上可以套在任何Agent系统上

03 代码智能 训练Coding Agent,终于可以不被Docker绑架了

训练SWE Agent最大的基础设施负担是什么?Docker环境。每个代码修复任务都需要一个依赖完整、可执行测试的容器,构建和维护成本高得惊人。SWE-WorldSWE-Master是同一团队的一套组合拳。SWE-World用LLM训练了一个「环境模拟器」——输入Agent的操作轨迹,直接预测执行结果和测试反馈,完全绕开了物理Docker环境。不只是省资源,这个模拟器还能在推理时对多个候选方案做虚拟评估,实现test-time scaling。SWE-Master则是配套的后训练框架,覆盖了从教师轨迹合成、长周期SFT到带执行反馈的RL的完整流水线。两者配合的效果:Qwen2.5-Coder-32B从6.2%提升到52%(Docker-free SFT),RL进一步到55%,加上test-time scaling到68.2%。SWE-Master框架单独用RL达到61.4%,TTS@8到70.8%

环境模拟器让SWE Agent训练的基础设施成本大幅下降,降低了开源社区参与门槛模拟器+TTS是一个双赢设计——训练时省Docker,推理时用模拟器选最优方案两个项目代码都已开源

04 Agent 你的Agent「监督员」可能在帮倒忙

一个看似合理的直觉:用一个LLM评审员监控Agent运行,预测到要失败就主动干预,应该能提高成功率吧?这篇论文给出了一个反直觉的答案——不一定,甚至可能更糟。研究者训练了一个离线准确率很高的二元评审器(AUROC 0.94),但部署后发现它对一个模型造成了26个百分点的性能崩塌,对另一个模型几乎没影响。原因是存在一个干扰-恢复权衡:介入确实能挽救部分注定失败的轨迹,但也会打断那些「虽然看起来不太对但最终会成功」的轨迹。团队提出了一个实用建议:部署前先用50个任务做小规模pilot test来判断介入到底是帮忙还是添乱。

离线评估准确率高不等于在线干预有正收益,这是Agent可靠性研究的关键盲区干扰-恢复权衡意味着保守策略(少干预)可能比积极策略更安全50任务pilot test成本很低,做Agent系统的团队值得纳入部署checklist
只保留256个token就能逼近全量注意力性能

也值得关注

05
混合稀疏注意力:5层全注意力撑起49层模型 推理加速HySparse让稀疏层复用全注意力层的KV cache,80B MoE模型实测KV cache压缩近10倍,效果优于全注意力和sliding window基线。链接
06
RL训练预算不该平均分配 训练优化CoBA-RL根据模型当前能力动态调整每个样本的rollout预算,简单题少花、难题多花,训练效率和泛化同时提升。链接
07
自回归视频生成的KV cache瓶颈有了2-bit解法 视频生成Quant VideoGen利用视频时空冗余做渐进式残差量化,缓存压缩7倍,延迟开销不到4%。链接
08
蒸馏加速不用再担心模式坍缩 图像生成DP-DMD把第一步专用于保多样性、后续步骤专注质量,不需要判别器也不需要感知损失,实现和SOTA相当的少步文生图。链接
09
VLM的空间推理能力有多差?人类88%,最好的模型55% 评测SpatiaLab在真实场景下测试6类30种空间推理任务,开放式回答时差距更大,最高仅41%。链接
10
Google用Gemini Deep Think协作解数学难题 AI for Science一组案例研究展示研究者如何通过迭代对话、问题分解、跨学科知识迁移等技巧,与LLM合作解决理论计算机科学和物理学中的开放问题。链接
11
预训练不必预设总步数 训练优化Anytime Pretraining证明权重平均配合多项式衰减学习率可以达到和cosine schedule相当的效果,无需提前知道训练总时长。链接
12
SWE-Master:开源可复现的SWE Agent后训练全流程 代码智能覆盖教师轨迹合成、长周期SFT、执行反馈RL到推理框架设计,Qwen2.5-Coder-32B达61.4%、TTS@8达70.8%。链接
13
Pinterest用VLM+Agent做生成式搜索优化 Agent反向思维:不让模型描述图片「是什么」,而是预测用户「会搜什么」,落地后贡献20%自然流量增长。链接

今日观察

今天有一个非常清晰的技术趋势:KV cache压缩正在从单点优化走向系统性方案。FASA从RoPE频率结构切入、HySparse从架构层面做全注意力-稀疏混合、Quant VideoGen从量化角度攻视频生成场景——三篇论文从不同维度在解同一个问题,且方法之间理论上可以叠加。另一个值得注意的方向是SWE Agent训练的基础设施降本:SWE-World证明了用模拟器替代Docker是可行的,这可能会显著加速开源SWE Agent的迭代速度。做推理部署的团队建议关注FASA和HySparse的组合潜力;做代码Agent的团队建议关注SWE-World的模拟器思路。