文本扩散模型不再只是概念验证

今日概览

文本扩散模型不再只是概念验证，LLaDA2.1的100B模型在代码任务上跑出892 TPS，并首次实现大规模RL训练dLLM
开源视频+音频联合生成终于有了，MOVA一个模型同时生成画面、对白、音效和音乐
GUI Agent三个变体覆盖2B到30B。UI-Venus-1.5在ScreenSpot-Pro和AndroidWorld上刷新SOTA，中文手机App实测可用
模型训练到瓶颈了怎么办？用自己的「弱版本」当老师反而能继续涨点，零额外推理开销

重点关注

01 模型架构文本扩散模型终于跑出实用速度了？

自回归生成（一个token接一个token）统治了LLM世界，但它天生是串行的，并行加速有天花板。文本扩散模型（dLLM）理论上可以并行生成多个token，但之前的实际速度和质量都不够看。LLaDA2.1做了两件关键的事：一是把Token-to-Token编辑和传统的Mask-to-Token生成结合起来，通过可调阈值在速度和质量之间灵活切换——「Speedy模式」激进降阈值再用编辑修正，「Quality模式」保守阈值换质量；二是首次为dLLM实现了大规模强化学习，用专门的梯度估计技术让扩散模型也能做RLHF式的对齐。100B模型在代码任务上跑出892 TPS（HumanEval+），远超同体量自回归模型的推理速度。dLLM从「有意思的研究方向」变成了「值得认真评估的工程选项」。

速度/质量可切换的双模式解码是实用化的关键设计首个dLLM大规模RL框架，补上了对齐能力的短板100B模型892 TPS的代码生成速度，数字本身就是论据

原文：LLaDA2.1: Speeding Up Text Diffusion via Token Editing

02 多模态视频生成终于不用「先出画面再配音」了

当前视频生成的常规流程是先生成视频，再用另一个模型配音——误差累积、节奏对不上、成本翻倍。Veo 3和Sora 2证明了同步生成的价值，但都是闭源的。MOVA是首个开源的视频+音频联合生成模型，32B参数（18B活跃），用MoE架构同时处理视觉和音频模态。它能生成口型同步的语音、环境匹配的音效和内容对齐的背景音乐，从图片+文字输入直接出带声音的视频。模型权重、代码全部开源，还提供了LoRA微调和prompt增强工具。对想在产品里集成视频生成的团队来说，「画面+声音一体化」不再需要自己拼pipeline了。

首个开源的视频音频联合生成模型，MoE架构32B参数口型同步、环境音效、背景音乐三个维度都能处理完整开源含LoRA微调支持，可直接集成

原文：MOVA: Towards Scalable and Synchronized Video-Audio Generation

03 Agent GUI Agent想在真实手机上好用，光靠大模型还不够

GUI Agent（自动操作手机/电脑界面的AI）离实用一直差口气：要么能力强但模型太大跑不动，要么轻量但复杂任务搞不定。UI-Venus-1.5提供了2B、8B和30B-A3B（MoE）三个版本，覆盖从端侧到云端的部署场景。三个关键技术升级：100亿token的中训阶段让模型「看懂」GUI语义，在线RL用完整轨迹训练（不是单步打分）让Agent学会长程导航，以及通过模型合并把定位、网页、手机三个专精模型融成一个checkpoint。结果在ScreenSpot-Pro上69.6%、AndroidWorld上77.6%，都是新SOTA。更实际的是，它在多个中文手机App上都实测可用——这在之前的GUI Agent论文里很少见。

三个规模的模型覆盖端侧到云端在线RL+完整轨迹训练是长程GUI导航的关键突破中文手机App实测可用，不只是benchmark数字

原文：UI-Venus-1.5 Technical Report

04 训练优化模型越训越强，直到有一天不动了——怎么破？

Post-training做到后期会撞上「饱和瓶颈」：模型已经非常自信了，继续训练收益递减。现有方法还在不断强化目标答案，但WMSS换了个思路——用模型自己训练过程中的弱版本checkpoint来指导后续优化。具体做法是通过熵变化找到当前模型的「可恢复学习缺口」（weak checkpoint还行、strong checkpoint反而退步的地方），然后用补偿学习把这些缺口修复回来。在数学推理和代码生成上都有效，而且不增加任何推理成本——改的只是训练流程，部署时完全一样。这个思路对正在做post-training调优的团队很有启发：与其只盯着更好的数据和更强的reward，不如回头看看模型「忘掉了什么」。

饱和瓶颈是post-training的真实痛点，现有方法越来越难涨分弱checkpoint包含被强模型遗忘的信息信号零推理开销，纯训练侧优化，部署无感

原文：Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

也值得关注

让模型先打草稿再自我修正，GRPO的迭代升级版AIME24上85.6% 推理iGRPO在GRPO基础上加了「先采样最佳草稿、再条件化精修」的两阶段流程，NVIDIA出品，在多个推理benchmark上稳定优于原版GRPO。链接

用RL教世界模型「听话」，交互准确率和画质同时提升 视频生成WorldCompass为自回归视频世界模型设计了clip级rollout策略和交互+画质双reward，腾讯出品。链接

视频理解不该只考「默认知识」，而要考「看了就会」 多模态Demo-ICL-Bench测试模型从示范视频中学习新操作的能力，现有MLLM普遍表现不佳，上海AI Lab出品。链接

科研Agent从benchmark走向真实实验室 AgentInternAgent-1.5在GAIA、HLE等benchmark上领先的同时，还能独立执行计算实验和湿实验室实验。链接

Agent不该把所有经验都存原始轨迹 AgentSkillRL自动从经验中蒸馏出层级化的可复用技能库，在RL训练中和策略共同进化，比强baseline高15.3%。链接

4B模型科学推理超o1-mini 训练优化Dr. SCI构建了100万题的STEM数据集，配合探索式SFT+动态难度课程+rubric引导RL三段式训练，Qwen3-4B在GPQA-diamond上达63.2%。链接

用旋转代替平移来控制LLM行为，TruthfulQA提升10% 可解释性Spherical Steering在推理时用球面旋转引导激活方向，保持向量范数不变，避免了activation addition的表示坍缩问题。链接

让具身推理不再依赖人工模板 机器人R&B-EnCoRe用自监督方法让VLA模型自己学会哪些推理对控制有用，机械臂操作成功率提升28%。链接

今日观察

今天的论文有一个清晰的趋势：RL正在渗透到LLM之外的每一个生成式AI子领域。LLaDA2.1把RL带入文本扩散模型，WorldCompass用RL训练视频世界模型，UI-Venus-1.5用在线RL训练GUI Agent，iGRPO和Dr. SCI在推进推理RL的精细化。做生成式AI产品的团队，不论你的模态是什么，RL post-training正在成为标配能力——值得把GRPO/PPO相关的工程经验列入技术储备清单。