Optimizer让容量缩放差2.3倍

今日概览

  • 三类物理3D资产首次合进同一条管线——PhysX-Omni把刚体、柔体、铰接体统一到一个框架,输出资产自带物理属性可直接挂物理引擎,sim-to-real团队的多pipeline维护成本有望降下来。
  • 图像生成正在从模型问题变成agent问题,GenEvolve把每次生成建模成轨迹,用visual experience distillation跨任务积累经验,绕开每个新需求都要retune底层模型的老路。
  • Optimizer是被忽略的scaling轴:同样FFN宽度增量,换optimizer能让有效容量的scaling指数从0.44跳到1.02,估scaling law前应当把optimizer当变量扫一遍。

重点关注

01 机器人 三类物理资产的生成管线,能不能压成一条?

想让机器人在仿真里学抓东西、推门、捏海绵,光有3D模型还不够——得能直接挂到物理引擎跑动力学。麻烦在于不同类型的资产过去各走各的生成管线,sim-to-real团队要并行维护好几条,数据、模型、评测都得分开攒。PhysX-Omni把刚体、柔体、铰接体三类放进同一个统一框架,给出的资产自带物理属性(材质、绝对尺寸、可动结构、affordance),同时发布PhysXVerse数据集和六维度的PhysX-Bench。值得提醒的是统一框架在单一类别上很少能打过专项SOTA,对从业者更有意义的判断是这套资产能不能真的把三条管线压回一条;以及「simulation-ready」到底是「参数标注齐」还是「能直接挂物理引擎跑实验」——这中间通常还有一段工程距离。在embodied AI这边攒资产的团队值得跟一下,但拿来上线前先看PhysXVerse的实际质量再下结论。

三类对象首次进同一个生成框架,对维护多pipeline的embodied团队是减负信号别期待单类别SOTA,统一框架的价值在管线压缩和资产规模化「simulation-ready」含义模糊,参数齐全不等于即插即用,需要看代码和数据集验证。

02 图像生成 复杂图像需求正在从模型问题变成agent问题

图像生成的需求曲线正在从prompt-to-image移向prompt-to-workflow——复杂构图、特定风格、多步编辑这类场景,单靠模型本身已经搞不定,需要agent编排多个工具和模型协同。GenEvolve把每次生成建模成一条「轨迹」:收集证据、选参考图、调用生成技能、组合成最终的prompt-reference程序,然后对同一请求跑多条轨迹,把最好和最差之间的差异抽象成结构化「视觉经验」,再蒸馏回student模型做token级监督。和那些只用图像级标量奖励的agent方法相比,这种差异蒸馏的信号粒度细很多,也更可能解释SOTA数字的真实来源。摘要里的「self-evolving」宣称从描述本身难证伪,但「用轨迹经验跨任务积累、绕开每个新需求都要retune底层模型」这条思路本身值得记下来。

图像生成的下一个差异化层可能在agent编排和工具组合,而不在底层模型本身轨迹级差异蒸馏比图像级奖励信号粒度细,是这类方法SOTA来源的关键判断点做复杂图像产品的团队值得评估哪些能力靠agent编排比堆模型更划算

原文:GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation


03 训练优化 loss追平了,模型容量却追不平——optimizer不只是训练细节

同样的Transformer、同样的FFN宽度增量,换optimizer能让有效容量的scaling指数从0.44跳到1.02——足足2.3倍。这里测的是罕见token表示上的hard-rank,也是学习最难的那部分分布。更违反直觉的是,AdamW长训练下能在perplexity上追平Muon,但spectral结构完全不同——loss一样不代表表示能力一样。作者把这个optimizer效应和改attention rank、位置编码这些架构干预放在一起对比,optimizer的影响往往还更大。如果你在估自己的scaling law,应当把optimizer也当变量扫一遍——不然挑哪个跑出来的曲线,迁移到生产环境就可能不对了。

估scaling law时把optimizer也当变量扫,不要默认AdamW——不然曲线未必能迁移到生产环境perplexity追平不代表representation能力追平,scaling实验值得额外看spectral结构optimizer对有效容量的影响可以超过改attention rank、位置编码这类架构干预

原文:Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws

Optimizer让容量缩放差2.3倍

也值得关注

04
Microsoft的Lens用19.3%训练算力打平6B+模型 图像生成3.8B T2I模型,配方是distillation+重新设计的pre-training流程,是中小预算团队值得照搬的训练配方。arxiv
05
从普通crowd preference数据里挖implicit safety信号 安全对齐ICML这篇不依赖额外safety annotation,把现有偏好数据集当作safety-related隐式objective的来源。arxiv
06
DualOptim+给LLM unlearning加了双优化器结构 训练优化base state+delta state让forget和retain的优化状态分开保留,缓解unlearning训坏retained能力。arxiv
07
Expectation Consistency Loss把calibration放回covariate shift场景 可解释性部署到分布外样本时的置信度更可靠,对安全敏感场景的模型上线有实际意义。arxiv

今日观察

今天HF Daily唯二的两篇——PhysX-Omni和GenEvolve——看上去毫不相关:一个做3D资产、一个做图像agent。但拉开看,两个团队都在把「生成系统」的价值边界往外推:PhysX给3D输出绑simulation-ready物理参数,让生成结果直接接物理引擎下游;GenEvolve在image生成器外面套tool-orchestration agent,让生成不再是一次model call。当生成核心质量进入收益递减区,这两个团队不约而同把差异化从「生成得多好看」挪到「生成结果如何接入下游workflow」。

这不是说核心generator变得不重要——质量低于阈值的话,下游绑定和上游agent都救不回来,它仍是必要前提。但对做生成式产品的团队是一个方向信号:如果你的底模质量已经够用,接下来值得花的工程预算可能不在继续卷生成质量,而在两头——往下游看,生成结果能不能直接接入用户的实际workflow(物理引擎、设计工具、视频管线);往上游看,能不能用agent把多步生成需求做成端到端的体验。

下次做产品路线图评审时,把「接下游workflow」和「做上游agent编排」这两个方向跟「继续训更好的底模」摆在同一张表上比一下投入产出——尤其当你已经感觉底模质量提升带来的用户感知在变弱。