10K数据训出4B agent,MoE扩容省32%

今日概览

  • 10K开放数据训出4B deep research agent:DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent,能力超9B以下agentic模型并向30B级缩小差距
  • MoE扩容复用现有expert省32% GPU时间:Expert Upcycling从已训checkpoint做expert复制+router扩展,再让expert重新分化;按梯度重要性挑expert复制能再放大3倍收益
  • 6000段真实coding agent会话首次公开:SWE-chat显示用户使用呈双峰分布——41%几乎全托给agent、23%自己写所有代码,agent代码只44%被采纳、44%回合在pushback
  • 四种架构学数字殊途同归,但仍藏二阶差异:Transformer/Linear RNN/LSTM/词向量都学出T=2,5,10的Fourier域周期表征,能否mod-T线性分类还取决于数据格式和优化器

重点关注

01 Agent 10K开放数据训agent,怎么把每条轨迹的价值榨干

训deep research agent最现实的瓶颈不是算力或参数量,而是高质量long-horizon轨迹的稀缺——开源能拿到的有效数据并不多。DR-Venus给出了一份在10K开放数据下的训练recipe:第一阶段做agentic SFT(监督微调),关键动作是严格的数据清洗加上对长程轨迹做resample,避免长轨迹在batch中被普通样本淹没。第二阶段在IGPO基础上做强化学习,设计turn-level奖励,把信息增益和格式正则作为监督信号,提高每一步的credit assignment密度,缓解稀疏反馈对小agent训练的影响。结果是这套recipe能在多个deep research benchmark上超过9B以下的agentic模型,并向30B级缩小差距。abstract对第二阶段的reward实现细节交代得偏略,具体改造和权重需要看全文确认;但仅stage-1的数据处理思路就已经是可以直接拿来对照自己pipeline的样本。

数据稀缺时,对长程轨迹做resample比盲目加数据更能提质turn-level奖励用信息增益做监督,能缓解长程任务credit assignment的稀疏问题第二阶段RL细节abstract未给全,stage-1的数据recipe是当下可直接借鉴的部分

02 训练优化 扩容MoE不必从零训:复制现有expert再让它们分化

7B到13B规模上,从已有MoE checkpoint扩容expert数比从零训省32% GPU时间,验证loss追平。Expert Upcycling的核心操作是把E-expert模型通过expert复制+router扩展变成mE-expert,每token激活的expert数不变(推理成本也不变);复制提供温启动——loss起点比随机初始化低不少——后续继续预训练再打破对称性让expert重新特化。作者还提出基于梯度重要性的非均匀复制——哪些expert更值得复制由训练梯度的重要性打分决定——在继续预训练预算受限时能把质量缺口的弥合提升3倍以上。对手里已有MoE base、想往更大expert数走的团队,这是一条比从零训实在的扩容路径——但收益依赖有足够的继续预训练预算让复制出来的expert真正分化开,预算太短拿不到这个节省。

已有MoE checkpoint的团队扩容expert数不必从零训,等规模质量下能省32% GPU时间非均匀复制(按梯度重要性挑expert)比平均复制收益大3倍以上,预算紧时尤其值得用32%节省的前提是有足够继续预训练让expert重新分化,预算太短可能拿不到收益

03 代码智能 真实用户怎么用 coding agent,第一次有了数据

做 coding agent 产品的团队过去判断「用户到底怎么用」基本靠直觉和零散反馈。SWE-chat 把开源仓库里能抓到的真实会话拼成了一个数据集——6000段会话、6.3万条用户prompt、35.5万次tool call,并且会持续更新。初步分析有几个值得记住的数字:41%的会话里几乎所有代码都是agent写的(「vibe coding」),23%的会话里人类自己写所有代码,使用模式是双峰分布;agent产出的代码只有44%进入了最终commit,且引入的安全漏洞比人类写的多;44%的对话回合里用户在通过修正、报错、打断来对抗agent。这些数字本身比任何curated benchmark都更接近「线上真实分布」。但要注意它的定位是基础设施而不是结论——abstract只承诺是living dataset,后续价值取决于研究社区在上面做出多深的分析。

真实使用是双峰分布而不是均匀混合,产品设计要分别服务「全托给agent」和「自己写」两类人agent代码只有44%被采纳、用户44%回合在pushback,benchmark分数和真实采纳率之间存在明显gap这是数据集不是评测,价值在后续能回答什么问题,做coding agent的团队值得跟进它衍生出的分析。

04 可解释性 Transformer、LSTM、词向量学数字,居然殊途同归

四种完全不同的架构——Transformer、Linear RNN、LSTM、经典词向量——在自然文本上训练后,独立学出了周期为2、5、10的Fourier域数字特征。表征学习研究通常在找「不同架构学到的东西有什么差异」,这篇反过来报告共性:不是哪个架构擅长,而是数据本身的结构会逼出同一种解。更有意思的是还藏着第二层——Fourier域有周期spike只是必要条件,能不能用几何方式线性分类mod-T是另一道门槛,只有部分模型过得去。论文证明了Fourier稀疏不蕴含几何可分,并发现数据、架构、优化器、tokenizer都会影响这一步;一个意外细节是多token的加法题能催生几何分离,同样的题写成单token就不行。这不是某个新的解释机制发现,而是给「不同模型学到的东西到底有多像」这个老问题切出了两层分辨率。

跨架构收敛——四种不同架构都学出T=2,5,10的周期表征,说明数字表征更多由数据结构决定而非架构选择共性之下藏二阶差异——Fourier稀疏≠几何可分,比较模型表征时「有相似pattern」和「pattern能拿来分类」是两件事数据写法会影响特征质量——多token vs 单token的加法题改变了几何分离的获得,提示数据格式比想象中关键
10K数据训出4B agent,MoE扩容省32%

也值得关注

05
agent skill的持续学习评测,三层分级打分 评测skill质量、执行轨迹、任务结果分别评估,沿着SkillFlow的方向把评测分辨率做细。SkillLearnBench
06
LLM生成游戏代码的痛点从「单次能跑」推向「迭代式累积」 代码智能关注版本间经验复用,单shot生成解决不了的事下一步靠迭代。CreativeGame
07
用surrogate model近似黑盒LLM在医疗预测中的行为 可解释性路径可作为参考,效果还要看全文细节。Surrogate modeling for LLMs

今日观察

DR-Venus和Expert Upcycling同一天都用了frontier这个词,但移动方向相反:DR-Venus把deep research agent的能力前沿往4B/edge推;Expert Upcycling把MoE训练的compute-efficient frontier往更大的total-param推,同时压低实际训练成本。两条独立路径共同在拆解「frontier=最大模型+最多算力」的默认设定——一边证明小尺寸能拿到此前以为只属于云端的能力,一边证明大尺寸不一定要付从零训练的代价。对从业者的意义:选型时「用什么frontier」已经不再是单一谱系,而是分到了至少两条独立的路上。

具体行动:下次说「我们用frontier model」之前停一秒——想要的是能力天花板那一档,还是「同等能力但便宜一半」那一档?这两件事今天已经分开了。手上有dense或小MoE checkpoint在权衡是否扩容的,把Expert Upcycling列进对比方案而不是只看从零训的报价;在评估端侧deep research可行性的,先用DR-Venus的stage-1数据recipe在自己几百条轨迹上跑个最小验证再做判断。