11B参数跑出frontier级Agent智能,Coding Agent评测该换赛道了

今日概览

  • 196B参数但只激活11B就对标GPT-5.2,Step 3.5 Flash用MoE+RL把Agent效率拉到新高度,开源权重
  • Coding Agent能修bug不代表能开发功能。FeatureBench把评测从单PR修复升级到端到端feature开发,最强模型只过11%
  • Mistral发布流式语音识别模型Voxtral Realtime,480ms延迟追平Whisper离线转录质量,Apache 2.0开源
  • 长上下文推理的记忆管理有了「刹车」,GRU-Mem用门控机制让Agent知道何时更新记忆、何时该停,推理速度最高提升4倍

重点关注

01 Agent 11B活跃参数就能跑frontier级Agent任务,效率边界被重新定义

部署复杂Agent最头疼的不是模型不够聪明,是推理成本太高——多轮交互、工具调用、代码执行,每一步都在烧token。Step 3.5 Flash用196B参数的MoE架构配合仅11B的活跃参数量,把frontier级Agent智能压进了可实际部署的成本区间。技术上有两个关键设计:3:1交替的滑动窗口/全注意力降低多轮交互的延迟,Multi-Token Prediction一次预测3个token加速生成;训练上用可验证信号+偏好反馈的混合RL框架,在大规模off-policy训练下保持稳定自我改进。硬指标:IMO-AnswerBench 85.4%,LiveCodeBench-v6 86.4%,tau2-Bench 88.2%,对标GPT-5.2 xHigh和Gemini 3.0 Pro。对做Agent产品的团队来说,这意味着「frontier级能力」和「可承受的推理成本」终于不再互斥。

MoE架构让frontier性能和低推理成本兼得MTP-3和混合注意力专门优化多轮Agent交互场景开源权重,可直接部署

02 代码智能 能修bug的Coding Agent就能开发功能吗?差远了

SWE-bench上74%的解题率听起来很厉害,但它测的基本是「给你一个PR里的bug,修好它」——任务边界清晰,改动范围有限。真实的功能开发是另一回事:横跨多个commit、涉及多个文件的依赖关系、还得保证其他功能不被破坏。FeatureBench(ICLR 2026)专门测这个。它从真实代码仓库的单元测试出发,沿着依赖图追踪出跨越多个commit和PR的功能级任务,200道题全部有可执行的测试环境。结果很扎眼:SWE-bench上74.4%的Claude 4.5 Opus,在FeatureBench上只做到11.0%。更实用的是这套任务生成工具是自动化的,可以持续从新仓库中构建新任务,天然抗数据泄露。

Coding Agent从「修bug」到「做feature」的能力断崖暴露了自动化的任务构建方法让benchmark可以持续更新、抗泄露对Coding Agent方向的投入需要重新审视评测标准

03 多模态 流式语音识别不用牺牲质量了

语音转文字一直有个两难:要实时就得分块送入离线模型(质量打折扣),要高质量就得等音频录完再处理。Voxtral Realtime是Mistral做的原生流式ASR模型,不是把离线模型切小块塞进来,而是端到端训练音频流和文本流之间的对齐。架构基于Delayed Streams Modeling框架,新引入因果音频编码器和Ada RMS-Norm来处理延迟条件化,预训练覆盖13种语言。核心结果:480ms延迟下达到Whisper级别的转录质量,Apache 2.0协议开源。对做语音应用的团队来说,这直接解决了「实时性和准确性只能选一个」的老问题。

原生流式训练vs.离线模型分块的本质区别在对齐质量480ms延迟+Whisper级准确率,实时场景可用Apache 2.0开源、13语言支持,部署门槛低

04 推理 长上下文Agent最该学的一件事:知道什么时候该停

长上下文推理的Agent需要逐段处理信息并维护记忆,但朴素的循环记忆有两个致命问题:看到无关内容也往里塞导致记忆爆炸,以及找到答案后还在继续循环浪费算力。GRU-Mem借鉴GRU(门控循环单元)的思路,给文本记忆加了两道门——「更新门」控制什么时候更新记忆(遇到无证据的文本块就跳过),「退出门」控制什么时候结束循环(证据收集够了立刻停止)。两个门的行为通过端到端RL的专用reward信号来学习。效果是在多个长上下文推理任务上全面超越MemAgent,推理速度最高提升400%

记忆不是越多越好,选择性更新和及时退出才是长上下文推理的关键GRU式门控从序列建模迁移到Agent记忆管理,思路巧妙400%加速来自跳过无关块和提前退出,不是近似压缩
11B参数跑出frontier级Agent智能,Coding Agent评测该换赛道了

也值得关注

05
多模态模型会死记硬背,但会举一反三吗? 评测GENIUS测试「生成式流体智力」,要求模型从即时上下文中归纳规则、执行约束、适应新知识,12个主流模型在这类任务上普遍表现不佳。链接
06
PhyCritic让物理世界的AI裁判不再纸上谈兵 机器人面向感知、因果推理和规划任务的多模态评判模型,先生成自己的预测再评判候选答案,物理场景准确率显著超越开源基线。链接
07
23万个室内环境、13万物体资产全部开源 机器人Allen Institute的MolmoSpaces为机器人导航和操作提供大规模模拟生态,支持MuJoCo/Isaac/ManiSkill,sim-to-real相关性达0.96。链接
08
不训练就能压缩30%还保住90%性能 推理加速ROCKET把逐层压缩分配建模为背包问题,配合字典学习式的稀疏矩阵分解,Qwen3-14B压到8B级别后微调恢复接近原始Qwen3-8B水平。链接
09
游戏开发是检验多模态Agent的最好试金石 代码智能GameDevBench用132个来自教程的游戏开发任务评测,平均改动量是SWE-bench的3倍,最强Agent只做到54.5%,给Claude加视觉反馈后从33%涨到48%。链接
10
后门攻击不是另起炉灶,而是劫持已有语言电路 安全对齐对GAPperon模型族的机制分析发现,后门trigger激活的注意力头与原有语言编码头大量重叠,防御策略应监控已知功能组件而非搜索隐藏电路。链接
11
Transformer的归一化层可以安全移除 模型架构TaperNorm在训练早期保持标准归一化,后半程平滑过渡到固定缩放,推理时直接融入线性层,吞吐量提升最高1.22倍。链接

今日观察

今天有两个信号值得交叉阅读:Step 3.5 Flash在Agent任务上对标frontier模型,FeatureBench和GameDevBench则说「别高兴太早,换个评测维度成绩就大打折扣」。Agent能力和评测标准正在同步升级——模型在做得更好的同时,行业也在发现更多做不好的地方。做Coding Agent产品的团队尤其值得注意:从单PR修复到端到端功能开发、从纯代码到多模态资产,这些更贴近真实工作流的评测方向将重新定义「好用」的标准。