dLLM跨架构蒸馏到0.6B

今日概览

  • 跨架构蒸馏把dLLM从8B压到0.6B:TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架,HumanEval从32.3跳到48.78,8个benchmark平均增益1.53分。
  • agent训练数据合成正成为新基础设施层——ClawGym把13.5K人设驱动任务、模拟工作区、混合验证打包发布,HF 43 upvotes超过今日所有highlights。
  • Speculative decoding给RL rollout当无损加速原语,8B规模实测1.8倍吞吐,235B规模异步pipeline模拟2.5倍端到端加速,不动on-policy纯度。
  • 异步去噪让动作和视频在同一diffusion里跑不同节奏。X-WAM在5800小时机器人数据上预训练,RoboCasa和RoboTwin 2.0成功率分别到79.2%、90.7%。

重点关注

01 模型架构 把扩散语言模型从8B压到0.6B,跨架构蒸馏补上一块拼图

扩散语言模型(dLLM)的并行解码和双向context是真优势,但要拿SOTA得用上80亿到160亿参数,部署成本比同尺寸AR模型高一档。TIDE做的事情是跨架构蒸馏——teacher和student在架构、attention机制、tokenizer三个层面同时不同,这是把dLLM从论文往生产推绕不开的一步,之前的dLLM蒸馏工作只在单一架构内压缩推理步数。框架由三个模块组成:TIDAL根据训练进度和扩散timestep动态调节蒸馏强度(teacher在不同噪声等级下可靠性不一样),CompDemo通过互补掩码切分让teacher在重度遮蔽下也能给出有用预测,Reverse CALM处理跨tokenizer的chunk级似然对齐。把8B dense和16B MoE的teacher蒸馏到0.6B student,8个benchmark平均提升1.53分;HumanEval从AR基线的32.3跳到48.78——代码生成是受益最明显的方向,其他任务的平均增益相对克制。需要保留的判断是:摘要展示的两条pipeline都是dLLM→dLLM,AR模型作为teacher可不可行、跨tokenizer对齐的精度损失到底多大,得看正文具体数字。

跨架构蒸馏(架构、attention、tokenizer同时不同)是dLLM从实验室走向部署的关键缺口,TIDE是第一个填这个空白的框架0.6B student代码生成32.3→48.78的跳跃明显,但8个benchmark平均1.53的增益不是全方位碾压,量级要看清想用AR模型当teacher蒸馏出dLLM student的团队,得等正文确认这条路径的可行性,摘要里两条pipeline都还是dLLM→dLLM

02 Agent 比新agent loop更卡人的,是没有可验证的合成数据

agent训练过去几年的常态是各家自建小作坊:环境、轨迹、奖励信号都内部消化,跨团队几乎没有可复用的基础设施。ClawGym的重心不在又一个agent loop,而落在生命周期里最难外化的那段——可验证训练数据的系统化合成:13.5K任务由人设驱动的意图加技能级操作合成,配套模拟工作区和混合验证机制,再接上监督微调和轻量级RL训练管线。HF 43 upvotes超过今日所有highlights,社区信号挺直白:缺数据基础设施比缺prompt技巧更卡人。但摘要里看不到合成任务的实际质量分布,和真实工作流的gap多大也没说——release后的实测才能下判断。对自建agent团队,值得问的不是「我要不要换一套loop」,而是「我的训练数据合成管线有没有到工业级」。

数据合成和环境集成正在成为agent系统的基础设施层,比新agent loop更接近当下的真瓶颈HF 43 upvotes高过今日所有highlights,社区对data infra的诉求强于新prompt/loop技巧摘要未披露合成任务的真实质量分布和与实际工作流的gap,部署侧需等代码release后实测。

03 训练优化 RL训练的提速账,能不能不动on-policy这条红线?

RL post-training的瓶颈是rollout生成——autoregressive一个token一个token地推,吃掉大半训练时间。现有提速路线多半要妥协:off-policy执行、replay、低精度生成,省了compute但都在动on-policy的纯度。这篇把推理侧成熟的speculative decoding(用小模型起草、大模型校验)搬进NeMo-RL+vLLM的rollout环节,作为无损加速原语——输出分布和原模型一致,不破坏on-policy假设。8B规模同步RL实测rollout吞吐提升1.8倍,结合异步pipeline在235B规模模拟出2.5倍端到端加速。需要保留意见的是:speculative decoding的实际收益取决于draft模型的接受率,而RL训练中后期策略分布会持续偏移,摘要没说接受率在这种偏移下是否稳定——这是部署前要自己验的。

想给RL post-training提速但又必须保on-policy纯度的团队,speculative decoding是少数不需要改训练regime的选项1.8x到2.5x的提速来自工程整合而非新算法,路径是NeMo-RL+vLLM+MTP/Eagle3接受率随策略分布偏移的稳定性是落地前最该自己测的变量。

04 机器人 实时动作和高保真视频塞进同一套去噪流程的折中方案

UWM这类unified world model把视频生成和动作预测放在同一个diffusion框架里,但只建2D像素空间,动作那一路没法做到实时。X-WAM的处理方式是给同一套denoising分两套节奏——动作走少量步数快速解码,视频走完整步数追求质量,训练时从两者的联合分布里采样以对齐推理时的不同步调。再加一个轻量的深度预测分支,复用预训练DiT的后几层来产出4D重建(视频+几何),避免重训整个模型。在5800小时机器人数据上预训练,RoboCasa和RoboTwin 2.0的平均成功率到79.2%和90.7%,4D指标也优于现有方法。但摘要没披露具体延迟和动作频率,real-time到底快到什么程度、能不能撑起闭环控制,需要看正文确认。

异步去噪让同一个diffusion模型在动作和视频上走不同步数,是一个工程化的折中而非全新范式4D重建由轻量深度分支补出来,不重训预训练视频DiT,对复用现有视频基模的团队有参考价值real-time的实际延迟摘要没给,部署评估前需要先确认这个数字
dLLM跨架构蒸馏到0.6B

也值得关注

05
把长程agent轨迹存成图像由OCR召回 Agent绕开text context budget,给百轮以上交互历史一条非text化的记忆通道。链接
06
AAAI实证质询一个流行假设:neuro-symbolic不会自动带来组合泛化 推理把grounding和compositionality拆开看,前者并不蕴含后者。链接
07
DiT特征缓存的forecast从手工公式换成可学线性预测器 推理加速激进跳步下不掉速,固定公式适配不了动态分布。链接
08
虚拟角色对话评测不止考记忆事实,还要考记忆的策略性使用 评测StratMem-Bench把「记得住」和「会用」拆成两道题,对长会话产品有借鉴。链接
09
3D Gaussian Splatting交互困境从语义分解切入 图像生成Semantic Foam统一空间与语义场景分解,给交互式图形应用补一块。链接
10
用因果基底约束VFM做单源域泛化 多模态避开光照和co-occurrence两类典型混杂因子,detector从源域到目标域更稳。链接
11
弱监督动作切分用HOI感知的自适应网络消歧相似动作 视频生成AdaAct不再用固定网络给每一帧打标签,按HOI上下文动态调参。链接
12
联邦域泛化Re-ID里语义锚定和风格多样化协同进化 多模态CO-EVO让两条原本独立的路线互相喂养,FedDG-ReID不再二选一。链接

今日观察

ClawGym做agent训练数据合成,OCR-Memory做长程轨迹的视觉化记忆——一条管在训练前,一条管在运行时,方向不重合,但都跳过了「agent loop怎么设计」那一层,直接动agent生命周期里更底层的基础设施。两篇都拿到不弱的社区信号(前者HF 43 upvotes超过今日所有highlights),并不是孤立巧合,是延续好几个月的一条隐线:当prompt工程和reasoning chain的边际收益越来越小,决定agent上限的反而是更朴素的工程问题——可验证的训练数据从哪来、长程轨迹怎么不爆context。

从业者要做的不是再换一套loop结构,是先盘自己的两条管道:训练数据合成是否到工业级(任务多样性、模拟环境、自动验证三件套齐不齐),运行时记忆是否能撑过百轮以上轨迹(不止能记住,还要能召回、能压缩)。这两条有短板,再聪明的prompt也补不上去。

行动建议:开张表把你现在agent系统的训练数据合成pipeline和运行时记忆模块逐项列出,对照ClawGym的三件套(人设意图驱动、模拟工作区、混合验证)和OCR-Memory的非text化思路(轨迹图像化、OCR召回),看哪一格是空的——那一格就是你下个季度的工程债。