梯度提升竟是扩散训练最优解

今日概览

多物体生成翻车要先归因再选方案：T2I多物体失败的主因是scene复杂度而非类别不平衡，concept级问题扩数据能缓解、组合级问题scaling救不了。
VLM玩Mario到100+回合的工程配方：Odysseus用带turn-level critic的PPO变体把RL horizon从20-30推到100+，预训练VLM的动作先验替代了手工action engineering。
GFN在红队场景从demo推向可用：Stable-GFN用对比式trajectory balance绕开partition function估计，正面修了mode collapse这块硬伤。
梯度提升是扩散训练的渐近最优解：决策树和扩散过程在GTSM框架下共享同一优化原则，TreeFlow表格生成提速2倍是初步可用的落地证据。

重点关注

01 图像生成多物体生成翻车，主因不是类别不平衡

T2I模型在多物体场景上经常出问题，业界惯常的解决思路要么是改架构、要么是加CoT式规划。这篇工作往回退一步，问的是数据本身能解释多少失败。作者搭了一个叫mosaic的受控合成数据框架，把问题切成两个机制——concept generalization（每个概念都见过但分布不均）和compositional generalization（特定组合在训练时被故意剔除），然后看模型在不同数据规模下的表现。结论有两个要点：scene复杂度的影响远大于类别不平衡，counting任务在低数据规模下尤其顽固；而当训练时holdout的概念组合越多，compositional generalization会明显崩塌，scaling并不能稳定救场。换句话说，多物体失败需要先做归因——concept级的问题可以靠扩数据缓解，组合级的可能得靠新的inductive bias。注意一点：所有结论都是在受控合成数据上得到的，迁移到LAION量级的真实训练分布之前，应该在自己的失败case上做一次归因校准。

多物体失败应先做机制归因，concept级吃scaling、组合级不一定scene复杂度而非类别不平衡是主因，counting在低数据下尤其难学结论来自合成数据，决定改架构或加规划模块前可以参考但不能直接照搬。

原文：When Do Diffusion Models learn to Generate Multiple Objects?

02 Agent VLM打Mario打到100+回合，关键不在游戏本身

Odysseus选超级马里奥作为试验场，把VLM交互决策的RL horizon一口气推到100+回合，比前沿模型平均通关进度高3倍以上。这之前路子一直卡得很死：RL训练horizon长期停在20-30回合上不去，靠人类轨迹SFT又费力且泛化有限。但真正值得抠的不是Mario本身——是论文给出的几个工程结论：带轻量turn-level critic的PPO变体在长horizon上比GRPO、Reinforce++这类无critic方法稳得多；预训练VLM自带强动作先验，能省掉传统深度RL那套手工动作工程，样本效率明显提升。这些结论对想做长程agent的团队是直接可用的配方。

需要泼点冷水：Mario的视觉空间和状态转移相对受控，跨游戏泛化也是在游戏域内做的——离真实productivity agent的开放环境还差不少层抽象。

长horizon RL训VLM时，turn-level critic的PPO比无critic方法稳定性和样本效率都更好预训练VLM的动作先验能替代手工action engineering，这是从classical RL过来的人容易忽略的杠杆Mario通关数字别直接外推到真实agent场景，环境受控度差异决定了方法迁移成本

原文：Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

03 安全对齐红队工具里的GFN，硬伤被正面修了一下

LLM红队既要攻击有效又要攻击多样，GFlowNet（一种把生成当成流匹配的训练范式）理论上很合适，但工程上一直跑不稳——奖励一抖动就mode collapse，输出全往一两个模板上挤。Stable-GFN的做法是绕开GFN里最难估的partition function Z，用trajectory之间的成对对比来训练，再加一个mask机制吃掉噪声奖励，外加一个fluency稳定器防止模型陷进胡言乱语的局部最优。论文给的指标是攻击成功率和多样性都比基线明显高，但要注意两点：成对对比意味着每步要多算一次轨迹，训练成本不可忽视；红队的「多样性」指标本身就可疑，编辑距离或聚类数高不代表攻击模式真的不同。对做安全评测和对抗样本生成的团队来说，这是把GFN从demo推向能用一档的工程改进，但接进自己流水线前最好先在自己的目标模型上做一轮独立验证。

GFN在红队场景的训练不稳定问题被正面处理，从demo级往可用级推进对比式训练带来额外开销，量产前要算清成本「多样性」指标值得怀疑，落地前自己定义评测口径

原文：Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

04 模型架构梯度提升原来是扩散训练的理想化最优解

梯度提升的理想化版本，居然是扩散模型在某种极限下的渐近最优解——这是这篇理论工作里反直觉的核心发现。作者证明决策树和扩散过程在适当极限下共享同一个优化原则：Global Trajectory Score Matching（GTSM，全局轨迹分数匹配）。落地有两个方向：TreeFlow在表格数据生成上比扩散基线快2倍且质量更好；DSMTree把树的层级决策逻辑蒸馏进神经网络，多数benchmark上在2%误差内逼近teacher。真正有意思的不是「两类模型其实是一回事」，而是双向借鉴的可能性——梯度提升能借扩散的训练直觉来改造，扩散反过来也能借树的结构思路。工程上能落多远还要看后续工作，但理论桥已经搭起来了。

决策树和扩散过程在GTSM框架下共享同一优化原则，梯度提升是其渐近最优解TreeFlow表格生成提速2倍、DSMTree蒸馏在2%误差内逼近teacher，是初步可用的落地证据做表格生成或梯度提升工程的团队可以盯一下后续——双向借鉴的工程红利比「理论桥」本身更值得跟进

原文：Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

也值得关注

VLM抗幻觉换一条路 多模态不再蒸馏GPT，改成在线自校准；对独立团队部署LVLM而言少一个外部依赖。链接