今日概览
- 国产MoE开始把「自我进化」写进路线图:MiniMax-M2系列230B参数只激活9.8B,端到端为agent场景设计,最新checkpoint已能自己debug训练、改自己的脚手架
- 并行推理最大的浪费,是每条分支各想各的:CPT让多条思考分支实时共享中间发现,免训练,在数学竞赛题上把「准确率-延迟」曲线整体往前推
- Agent用RL训着训着,工具就乱调了:AKBE让模型自己分清「该查工具还是靠脑子」,工具调用减18%、准确率反升,工具效率提25%
- 技能不该是一次性脚本:MUSE-Autoskill给agent的技能加上完整生命周期,能跨任务复用、带经验、还能跑单测自我修正
重点关注
01 训练优化 一个230B的模型,开始尝试自己修自己
大模型这两年都在卷参数和激活比,但真正难的是把模型做成能干活的agent,而不是会答题的考生。MiniMax这次的M2系列给了个挺激进的答案:总参数229.9B,每个token只激活9.8B,从数据到训练全程围绕agent场景设计——agent驱动的数据流水线产出大量可验证的编码和办公轨迹,每条都绑定一个能真跑的工作区和「产物对齐」的奖励。最让人留意的是最新的M2.7 checkpoint,已经迈出自我进化的第一步:能自主debug训练过程、修改自己的scaffold。配套的Forge是个为长程agent轨迹设计的RL系统,把训练、推理、agent三者干净解耦,白盒黑盒agent都能接。对关注开源/自研基座的团队,这是又一个「小激活撬动强能力」的样本,自我进化那部分尤其值得追踪——当然具体成色还得看实测。
原文:The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence
02 推理 几条分支一起想题,为什么还是慢
让模型并行开多条思路再选最优,是现在提升推理能力的常规操作。但有个被忽视的浪费:这些分支彼此封闭,A分支辛苦试出来的中间结论,B分支看不到,只能自己重新趟一遍——同一个发现被反复重新发现,搜索步数白白拉长。CPT(Collaborative Parallel Thinking)的思路很直接:让分支之间实时通气。它从每条进行中的分支里抽出精简的中间信息,维护一个去重的「信息池」,再把池子里的内容广播进各分支的上下文,让后续步骤直接复用别人的发现,不用重造轮子。关键是这套完全免训练,纯推理时框架。在HMMT和AIME这类数学竞赛benchmark上,它把「准确率-延迟」的帕累托前沿整体往外推了一截,跨不同rollout预算和模型规模都成立。对做推理服务、想压test-time成本的团队,这是个不用重训就能试的优化点。
原文:Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling
03 Agent 用RL训Agent,怎么越训越爱乱调工具
给agent做RL训练有个反直觉的副作用:训着训着,模型反而开始滥用工具——明明自己知道答案,还要多调几次搜索,而且渐渐分不清「什么时候该查工具、什么时候靠自己的知识就够」。常见的解法是用奖励去压工具调用次数,但这种粗粒度信号容易被模型钻空子,干脆一刀切地少调工具,结果reward hacking了。AKBE换了个细的做法:训练时对每个问题同时跑「带工具」和「不带工具」两条轨迹,比较对错,逐题判断这道题到底需不需要工具、最少需要几次,据此给出针对性的监督信号。效果是七个QA benchmark上准确率平均涨1.85,工具调用减18%,工具效率(productivity)提25%,而且没有牺牲准确率换效率。它还能即插即用地接到不同RL算法上。对在做search agent、tool-use agent的团队,这是个直接对着「该不该调工具」这个痛点下手的方法。
原文:Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement
04 Agent Agent攒下来的「技能」,为什么用过一次就废了
现在的agent都讲究复用技能来解复杂任务,但绝大多数做法把技能当成孤立、静态的脚本——造出来用一次就扔,既不可靠也没法长期改进。MUSE-Autoskill把「技能」当成需要全生命周期管理的资产来对待:创建、记忆、管理、评估、再到精炼,形成一个闭环。Agent能按需造技能,跨任务存储复用,高效地组织和挑选,还能通过单元测试和运行时反馈不断修正。更进一步,它给每个技能配了「技能级记忆」,把这个技能在各任务中积累的经验存下来,让复用和适配越来越准。在SkillsBench上的初步实验显示,这种带生命周期管理的技能确实能提升任务成功率、效率、复用率,甚至跨agent迁移。对在搭长期运行、需要积累能力的agent系统的人,这个「技能要可测试、带经验、能长期演化」的思路值得记一笔——不过目前还是初步证据。
原文:MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

也值得关注
今日观察
今天有一条很清晰的主线:agent的能力建设正在从「单次任务做对」转向「长期持续变强」。MiniMax-M2.7尝试自己debug训练、MUSE-Autoskill把技能做成带经验的长期资产、AKBE教模型自己拿捏工具的使用边界——三件事方向一致,都是让agent在运行和训练中不断自我修正、积累。与此同时,一批新benchmark(JobBench、VitaBench 2.0、QUACK、MemFail)也集体把矛头对准了「持续性」和「真实性」:能不能记住偏好、发言有没有证据、记忆系统在哪崩。做长期运行agent的团队,值得把「技能/记忆的生命周期管理」和「自我进化的可验证性」一起加进技术跟踪列表——能力能涨是一回事,涨得可控、可审计是另一回事。