Agent开始学会自己变强,也学会少用工具

今日概览

  • 国产MoE开始把「自我进化」写进路线图:MiniMax-M2系列230B参数只激活9.8B,端到端为agent场景设计,最新checkpoint已能自己debug训练、改自己的脚手架
  • 并行推理最大的浪费,是每条分支各想各的:CPT让多条思考分支实时共享中间发现,免训练,在数学竞赛题上把「准确率-延迟」曲线整体往前推
  • Agent用RL训着训着,工具就乱调了:AKBE让模型自己分清「该查工具还是靠脑子」,工具调用减18%、准确率反升,工具效率提25%
  • 技能不该是一次性脚本:MUSE-Autoskill给agent的技能加上完整生命周期,能跨任务复用、带经验、还能跑单测自我修正

重点关注

01 训练优化 一个230B的模型,开始尝试自己修自己

大模型这两年都在卷参数和激活比,但真正难的是把模型做成能干活的agent,而不是会答题的考生。MiniMax这次的M2系列给了个挺激进的答案:总参数229.9B,每个token只激活9.8B,从数据到训练全程围绕agent场景设计——agent驱动的数据流水线产出大量可验证的编码和办公轨迹,每条都绑定一个能真跑的工作区和「产物对齐」的奖励。最让人留意的是最新的M2.7 checkpoint,已经迈出自我进化的第一步:能自主debug训练过程、修改自己的scaffold。配套的Forge是个为长程agent轨迹设计的RL系统,把训练、推理、agent三者干净解耦,白盒黑盒agent都能接。对关注开源/自研基座的团队,这是又一个「小激活撬动强能力」的样本,自我进化那部分尤其值得追踪——当然具体成色还得看实测。

230B总参/9.8B激活,整条pipeline为agentic部署而非答题设计M2.7已能自主debug训练、改自己的脚手架,自我进化不再只是口号Forge把训练-推理-agent解耦,是这套能跑起来的工程底座

02 推理 几条分支一起想题,为什么还是慢

让模型并行开多条思路再选最优,是现在提升推理能力的常规操作。但有个被忽视的浪费:这些分支彼此封闭,A分支辛苦试出来的中间结论,B分支看不到,只能自己重新趟一遍——同一个发现被反复重新发现,搜索步数白白拉长。CPT(Collaborative Parallel Thinking)的思路很直接:让分支之间实时通气。它从每条进行中的分支里抽出精简的中间信息,维护一个去重的「信息池」,再把池子里的内容广播进各分支的上下文,让后续步骤直接复用别人的发现,不用重造轮子。关键是这套完全免训练,纯推理时框架。在HMMT和AIME这类数学竞赛benchmark上,它把「准确率-延迟」的帕累托前沿整体往外推了一截,跨不同rollout预算和模型规模都成立。对做推理服务、想压test-time成本的团队,这是个不用重训就能试的优化点。

并行推理的隐藏成本是分支重复发现同一信息CPT用共享信息池让分支实时复用彼此的中间结论,免训练数学竞赛任务上准确率-延迟曲线整体改善,可直接接进推理框架

03 Agent 用RL训Agent,怎么越训越爱乱调工具

给agent做RL训练有个反直觉的副作用:训着训着,模型反而开始滥用工具——明明自己知道答案,还要多调几次搜索,而且渐渐分不清「什么时候该查工具、什么时候靠自己的知识就够」。常见的解法是用奖励去压工具调用次数,但这种粗粒度信号容易被模型钻空子,干脆一刀切地少调工具,结果reward hacking了。AKBE换了个细的做法:训练时对每个问题同时跑「带工具」和「不带工具」两条轨迹,比较对错,逐题判断这道题到底需不需要工具、最少需要几次,据此给出针对性的监督信号。效果是七个QA benchmark上准确率平均涨1.85,工具调用减18%,工具效率(productivity)提25%,而且没有牺牲准确率换效率。它还能即插即用地接到不同RL算法上。对在做search agent、tool-use agent的团队,这是个直接对着「该不该调工具」这个痛点下手的方法。

agentic RL会让模型分不清何时该用工具,奖励整形又容易被钻空子AKBE用「带工具/不带工具」双轨对比逐题定边界,精度和效率同时改善plug-and-play兼容不同RL算法,代码已开源

04 Agent Agent攒下来的「技能」,为什么用过一次就废了

现在的agent都讲究复用技能来解复杂任务,但绝大多数做法把技能当成孤立、静态的脚本——造出来用一次就扔,既不可靠也没法长期改进。MUSE-Autoskill把「技能」当成需要全生命周期管理的资产来对待:创建、记忆、管理、评估、再到精炼,形成一个闭环。Agent能按需造技能,跨任务存储复用,高效地组织和挑选,还能通过单元测试和运行时反馈不断修正。更进一步,它给每个技能配了「技能级记忆」,把这个技能在各任务中积累的经验存下来,让复用和适配越来越准。在SkillsBench上的初步实验显示,这种带生命周期管理的技能确实能提升任务成功率、效率、复用率,甚至跨agent迁移。对在搭长期运行、需要积累能力的agent系统的人,这个「技能要可测试、带经验、能长期演化」的思路值得记一笔——不过目前还是初步证据。

把技能当一次性脚本是agent能力难积累的根因MUSE-Autoskill用创建-记忆-管理-评估-精炼的闭环让技能可复用、带经验、能跑单测自修SkillsBench上跨任务复用和跨agent迁移都有初步增益

Agent开始学会自己变强,也学会少用工具

也值得关注

05
比起「能不能替代人」,benchmark开始问「人到底想让agent干什么」 评测JobBench覆盖35种职业130个真实办公任务,最强的Claude Opus 4.7也只做到45.9%,刻意把目标从「替代」掰回「增强」。链接
06
让VLM玩狼人杀,发现它一半的指控都是张口就来 AgentQUACK逐句核对agent发言与真实轨迹,最强模型仍有15.1%的空间描述是幻觉,半数指控没有证据支撑。链接
07
Agent能记住你的偏好吗?长期交互一测就露馅 评测VitaBench 2.0把任务做成按时间排序的用户序列,偏好藏在零碎日常里,要求agent持续抽取更新,前沿模型仍有明显差距。链接
08
分钟级音视频生成,没人好好测过它在长时段崩在哪 多模态LongAV-Compass用284个用例覆盖文/图/视频三种条件,从身份一致性到叙事连贯拉了20多个维度横评11个模型。链接
09
多视角3D重建一遇到画质退化就翻车 图像生成GARD直接在重建模型的特征空间里做扩散去噪,几何和高清RGB图像一起恢复。链接
10
科学模拟想要又快又准,RecFM声称20倍提速还更准 AI for Science递归flow matching靠跨尺度自一致,2-4步就逼近多步求解器,误差还降了15%以上。链接
11
归一化层里那个不起眼的缩放向量,删了模型就训不好 模型架构参数占比可忽略,却通过「自放大预条件」效应改善优化,论文还给出三个轻量改进。链接
12
「LLM能内省」这个结论,可能下得太早了 可解释性一篇reality check指出,模型所谓的自我状态识别,更像是泛泛的异常检测和模式匹配,控制变量后接近随机。链接
13
遗忘请求一个接一个来,每次都微调成本太高 安全对齐ICCU不改参数,从遗忘数据里归纳出可读的拒绝规则,推理时叠加,规则可组合、互不干扰。链接

今日观察

今天有一条很清晰的主线:agent的能力建设正在从「单次任务做对」转向「长期持续变强」。MiniMax-M2.7尝试自己debug训练、MUSE-Autoskill把技能做成带经验的长期资产、AKBE教模型自己拿捏工具的使用边界——三件事方向一致,都是让agent在运行和训练中不断自我修正、积累。与此同时,一批新benchmark(JobBench、VitaBench 2.0、QUACK、MemFail)也集体把矛头对准了「持续性」和「真实性」:能不能记住偏好、发言有没有证据、记忆系统在哪崩。做长期运行agent的团队,值得把「技能/记忆的生命周期管理」和「自我进化的可验证性」一起加进技术跟踪列表——能力能涨是一回事,涨得可控、可审计是另一回事。