11B参数跑出frontier级Agent智能，Coding Agent评测该换赛道了

今日概览

196B参数但只激活11B就对标GPT-5.2，Step 3.5 Flash用MoE+RL把Agent效率拉到新高度，开源权重
Coding Agent能修bug不代表能开发功能。FeatureBench把评测从单PR修复升级到端到端feature开发，最强模型只过11%
Mistral发布流式语音识别模型Voxtral Realtime，480ms延迟追平Whisper离线转录质量，Apache 2.0开源
长上下文推理的记忆管理有了「刹车」，GRU-Mem用门控机制让Agent知道何时更新记忆、何时该停，推理速度最高提升4倍

重点关注

01 Agent 11B活跃参数就能跑frontier级Agent任务，效率边界被重新定义

部署复杂Agent最头疼的不是模型不够聪明，是推理成本太高——多轮交互、工具调用、代码执行，每一步都在烧token。Step 3.5 Flash用196B参数的MoE架构配合仅11B的活跃参数量，把frontier级Agent智能压进了可实际部署的成本区间。技术上有两个关键设计：3:1交替的滑动窗口/全注意力降低多轮交互的延迟，Multi-Token Prediction一次预测3个token加速生成；训练上用可验证信号+偏好反馈的混合RL框架，在大规模off-policy训练下保持稳定自我改进。硬指标：IMO-AnswerBench 85.4%，LiveCodeBench-v6 86.4%，tau2-Bench 88.2%，对标GPT-5.2 xHigh和Gemini 3.0 Pro。对做Agent产品的团队来说，这意味着「frontier级能力」和「可承受的推理成本」终于不再互斥。

MoE架构让frontier性能和低推理成本兼得MTP-3和混合注意力专门优化多轮Agent交互场景开源权重，可直接部署

原文：Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters

02 代码智能能修bug的Coding Agent就能开发功能吗？差远了

SWE-bench上74%的解题率听起来很厉害，但它测的基本是「给你一个PR里的bug，修好它」——任务边界清晰，改动范围有限。真实的功能开发是另一回事：横跨多个commit、涉及多个文件的依赖关系、还得保证其他功能不被破坏。FeatureBench（ICLR 2026）专门测这个。它从真实代码仓库的单元测试出发，沿着依赖图追踪出跨越多个commit和PR的功能级任务，200道题全部有可执行的测试环境。结果很扎眼：SWE-bench上74.4%的Claude 4.5 Opus，在FeatureBench上只做到11.0%。更实用的是这套任务生成工具是自动化的，可以持续从新仓库中构建新任务，天然抗数据泄露。

Coding Agent从「修bug」到「做feature」的能力断崖暴露了自动化的任务构建方法让benchmark可以持续更新、抗泄露对Coding Agent方向的投入需要重新审视评测标准

原文：FeatureBench: Benchmarking Agentic Coding for Complex Feature Development

03 多模态流式语音识别不用牺牲质量了

语音转文字一直有个两难：要实时就得分块送入离线模型（质量打折扣），要高质量就得等音频录完再处理。Voxtral Realtime是Mistral做的原生流式ASR模型，不是把离线模型切小块塞进来，而是端到端训练音频流和文本流之间的对齐。架构基于Delayed Streams Modeling框架，新引入因果音频编码器和Ada RMS-Norm来处理延迟条件化，预训练覆盖13种语言。核心结果：480ms延迟下达到Whisper级别的转录质量，Apache 2.0协议开源。对做语音应用的团队来说，这直接解决了「实时性和准确性只能选一个」的老问题。

原生流式训练vs.离线模型分块的本质区别在对齐质量480ms延迟+Whisper级准确率，实时场景可用Apache 2.0开源、13语言支持，部署门槛低

原文：Voxtral Realtime

04 推理长上下文Agent最该学的一件事：知道什么时候该停

长上下文推理的Agent需要逐段处理信息并维护记忆，但朴素的循环记忆有两个致命问题：看到无关内容也往里塞导致记忆爆炸，以及找到答案后还在继续循环浪费算力。GRU-Mem借鉴GRU（门控循环单元）的思路，给文本记忆加了两道门——「更新门」控制什么时候更新记忆（遇到无证据的文本块就跳过），「退出门」控制什么时候结束循环（证据收集够了立刻停止）。两个门的行为通过端到端RL的专用reward信号来学习。效果是在多个长上下文推理任务上全面超越MemAgent，推理速度最高提升400%。

记忆不是越多越好，选择性更新和及时退出才是长上下文推理的关键GRU式门控从序列建模迁移到Agent记忆管理，思路巧妙400%加速来自跳过无关块和提前退出，不是近似压缩

原文：When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

11B参数跑出frontier级Agent智能，Coding Agent评测该换赛道了

也值得关注

多模态模型会死记硬背，但会举一反三吗？ 评测GENIUS测试「生成式流体智力」，要求模型从即时上下文中归纳规则、执行约束、适应新知识，12个主流模型在这类任务上普遍表现不佳。链接

PhyCritic让物理世界的AI裁判不再纸上谈兵 机器人面向感知、因果推理和规划任务的多模态评判模型，先生成自己的预测再评判候选答案，物理场景准确率显著超越开源基线。链接

23万个室内环境、13万物体资产全部开源 机器人Allen Institute的MolmoSpaces为机器人导航和操作提供大规模模拟生态，支持MuJoCo/Isaac/ManiSkill，sim-to-real相关性达0.96。链接

不训练就能压缩30%还保住90%性能 推理加速ROCKET把逐层压缩分配建模为背包问题，配合字典学习式的稀疏矩阵分解，Qwen3-14B压到8B级别后微调恢复接近原始Qwen3-8B水平。链接

游戏开发是检验多模态Agent的最好试金石 代码智能GameDevBench用132个来自教程的游戏开发任务评测，平均改动量是SWE-bench的3倍，最强Agent只做到54.5%，给Claude加视觉反馈后从33%涨到48%。链接

后门攻击不是另起炉灶，而是劫持已有语言电路 安全对齐对GAPperon模型族的机制分析发现，后门trigger激活的注意力头与原有语言编码头大量重叠，防御策略应监控已知功能组件而非搜索隐藏电路。链接

Transformer的归一化层可以安全移除 模型架构TaperNorm在训练早期保持标准归一化，后半程平滑过渡到固定缩放，推理时直接融入线性层，吞吐量提升最高1.22倍。链接

今日观察

今天有两个信号值得交叉阅读：Step 3.5 Flash在Agent任务上对标frontier模型，FeatureBench和GameDevBench则说「别高兴太早，换个评测维度成绩就大打折扣」。Agent能力和评测标准正在同步升级——模型在做得更好的同时，行业也在发现更多做不好的地方。做Coding Agent产品的团队尤其值得注意：从单PR修复到端到端功能开发、从纯代码到多模态资产，这些更贴近真实工作流的评测方向将重新定义「好用」的标准。