Agent开始学会自己变强，也学会少用工具

今日概览

国产MoE开始把「自我进化」写进路线图：MiniMax-M2系列230B参数只激活9.8B，端到端为agent场景设计，最新checkpoint已能自己debug训练、改自己的脚手架
并行推理最大的浪费，是每条分支各想各的：CPT让多条思考分支实时共享中间发现，免训练，在数学竞赛题上把「准确率-延迟」曲线整体往前推
Agent用RL训着训着，工具就乱调了：AKBE让模型自己分清「该查工具还是靠脑子」，工具调用减18%、准确率反升，工具效率提25%
技能不该是一次性脚本：MUSE-Autoskill给agent的技能加上完整生命周期，能跨任务复用、带经验、还能跑单测自我修正

重点关注

01 训练优化一个230B的模型，开始尝试自己修自己

大模型这两年都在卷参数和激活比，但真正难的是把模型做成能干活的agent，而不是会答题的考生。MiniMax这次的M2系列给了个挺激进的答案：总参数229.9B，每个token只激活9.8B,从数据到训练全程围绕agent场景设计——agent驱动的数据流水线产出大量可验证的编码和办公轨迹，每条都绑定一个能真跑的工作区和「产物对齐」的奖励。最让人留意的是最新的M2.7 checkpoint，已经迈出自我进化的第一步:能自主debug训练过程、修改自己的scaffold。配套的Forge是个为长程agent轨迹设计的RL系统，把训练、推理、agent三者干净解耦，白盒黑盒agent都能接。对关注开源/自研基座的团队，这是又一个「小激活撬动强能力」的样本，自我进化那部分尤其值得追踪——当然具体成色还得看实测。

230B总参/9.8B激活，整条pipeline为agentic部署而非答题设计M2.7已能自主debug训练、改自己的脚手架，自我进化不再只是口号Forge把训练-推理-agent解耦，是这套能跑起来的工程底座

原文：The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

02 推理几条分支一起想题，为什么还是慢

让模型并行开多条思路再选最优，是现在提升推理能力的常规操作。但有个被忽视的浪费：这些分支彼此封闭，A分支辛苦试出来的中间结论，B分支看不到，只能自己重新趟一遍——同一个发现被反复重新发现，搜索步数白白拉长。CPT（Collaborative Parallel Thinking）的思路很直接:让分支之间实时通气。它从每条进行中的分支里抽出精简的中间信息，维护一个去重的「信息池」,再把池子里的内容广播进各分支的上下文，让后续步骤直接复用别人的发现，不用重造轮子。关键是这套完全免训练，纯推理时框架。在HMMT和AIME这类数学竞赛benchmark上，它把「准确率-延迟」的帕累托前沿整体往外推了一截，跨不同rollout预算和模型规模都成立。对做推理服务、想压test-time成本的团队，这是个不用重训就能试的优化点。

并行推理的隐藏成本是分支重复发现同一信息CPT用共享信息池让分支实时复用彼此的中间结论，免训练数学竞赛任务上准确率-延迟曲线整体改善，可直接接进推理框架

原文：Share More, Search Less: Collaborative Parallel Thinking for Efficient Test-Time Scaling

03 Agent 用RL训Agent，怎么越训越爱乱调工具

给agent做RL训练有个反直觉的副作用:训着训着，模型反而开始滥用工具——明明自己知道答案，还要多调几次搜索，而且渐渐分不清「什么时候该查工具、什么时候靠自己的知识就够」。常见的解法是用奖励去压工具调用次数，但这种粗粒度信号容易被模型钻空子，干脆一刀切地少调工具，结果reward hacking了。AKBE换了个细的做法:训练时对每个问题同时跑「带工具」和「不带工具」两条轨迹，比较对错，逐题判断这道题到底需不需要工具、最少需要几次,据此给出针对性的监督信号。效果是七个QA benchmark上准确率平均涨1.85，工具调用减18%，工具效率（productivity）提25%，而且没有牺牲准确率换效率。它还能即插即用地接到不同RL算法上。对在做search agent、tool-use agent的团队，这是个直接对着「该不该调工具」这个痛点下手的方法。

agentic RL会让模型分不清何时该用工具，奖励整形又容易被钻空子AKBE用「带工具/不带工具」双轨对比逐题定边界，精度和效率同时改善plug-and-play兼容不同RL算法，代码已开源

原文：Efficient Agentic Reinforcement Learning with On-Policy Intrinsic Knowledge Boundary Enhancement

04 Agent Agent攒下来的「技能」，为什么用过一次就废了

现在的agent都讲究复用技能来解复杂任务，但绝大多数做法把技能当成孤立、静态的脚本——造出来用一次就扔，既不可靠也没法长期改进。MUSE-Autoskill把「技能」当成需要全生命周期管理的资产来对待:创建、记忆、管理、评估、再到精炼，形成一个闭环。Agent能按需造技能，跨任务存储复用，高效地组织和挑选，还能通过单元测试和运行时反馈不断修正。更进一步，它给每个技能配了「技能级记忆」，把这个技能在各任务中积累的经验存下来，让复用和适配越来越准。在SkillsBench上的初步实验显示，这种带生命周期管理的技能确实能提升任务成功率、效率、复用率，甚至跨agent迁移。对在搭长期运行、需要积累能力的agent系统的人，这个「技能要可测试、带经验、能长期演化」的思路值得记一笔——不过目前还是初步证据。

把技能当一次性脚本是agent能力难积累的根因MUSE-Autoskill用创建-记忆-管理-评估-精炼的闭环让技能可复用、带经验、能跑单测自修SkillsBench上跨任务复用和跨agent迁移都有初步增益

原文：MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation

也值得关注

比起「能不能替代人」，benchmark开始问「人到底想让agent干什么」 评测JobBench覆盖35种职业130个真实办公任务，最强的Claude Opus 4.7也只做到45.9%，刻意把目标从「替代」掰回「增强」。链接

让VLM玩狼人杀，发现它一半的指控都是张口就来 AgentQUACK逐句核对agent发言与真实轨迹，最强模型仍有15.1%的空间描述是幻觉，半数指控没有证据支撑。链接

Agent能记住你的偏好吗？长期交互一测就露馅 评测VitaBench 2.0把任务做成按时间排序的用户序列，偏好藏在零碎日常里，要求agent持续抽取更新，前沿模型仍有明显差距。链接

分钟级音视频生成，没人好好测过它在长时段崩在哪 多模态LongAV-Compass用284个用例覆盖文/图/视频三种条件，从身份一致性到叙事连贯拉了20多个维度横评11个模型。链接

多视角3D重建一遇到画质退化就翻车 图像生成GARD直接在重建模型的特征空间里做扩散去噪，几何和高清RGB图像一起恢复。链接

科学模拟想要又快又准，RecFM声称20倍提速还更准 AI for Science递归flow matching靠跨尺度自一致，2-4步就逼近多步求解器，误差还降了15%以上。链接

归一化层里那个不起眼的缩放向量，删了模型就训不好 模型架构参数占比可忽略，却通过「自放大预条件」效应改善优化，论文还给出三个轻量改进。链接

「LLM能内省」这个结论，可能下得太早了 可解释性一篇reality check指出，模型所谓的自我状态识别，更像是泛泛的异常检测和模式匹配，控制变量后接近随机。链接

遗忘请求一个接一个来，每次都微调成本太高 安全对齐ICCU不改参数，从遗忘数据里归纳出可读的拒绝规则，推理时叠加，规则可组合、互不干扰。链接

今日观察

今天有一条很清晰的主线:agent的能力建设正在从「单次任务做对」转向「长期持续变强」。MiniMax-M2.7尝试自己debug训练、MUSE-Autoskill把技能做成带经验的长期资产、AKBE教模型自己拿捏工具的使用边界——三件事方向一致，都是让agent在运行和训练中不断自我修正、积累。与此同时，一批新benchmark（JobBench、VitaBench 2.0、QUACK、MemFail）也集体把矛头对准了「持续性」和「真实性」:能不能记住偏好、发言有没有证据、记忆系统在哪崩。做长期运行agent的团队，值得把「技能/记忆的生命周期管理」和「自我进化的可验证性」一起加进技术跟踪列表——能力能涨是一回事，涨得可控、可审计是另一回事。