用扩散模型做投机解码，推理加速6倍

今日概览

用扩散模型做投机解码，推理加速6倍，DFlash让轻量级block diffusion模型一次前向pass生成全部草稿token，比EAGLE-3再快2.5倍
多轮RL训练Triton代码生成，14B模型写GPU kernel超过Claude-4.5-Sonnet。Dr.Kernel解决了reward hacking和lazy optimization两大难题，47.8%的kernel跑赢PyTorch参考实现
长视频生成的一致性瓶颈被找到了：Context Forcing指出问题在「短记忆老师教长记忆学生」的结构错配，用长上下文师生+慢快记忆把有效上下文拉到20秒以上
RLVR训练中模型越练越惜字如金，根源不是模型行为而是算法偏差。LUSPO修正GSPO的长度偏差后避免了输出坍缩

重点关注

01 推理加速投机解码的草稿模型终于不用自回归了

投机解码（speculative decoding）的核心思路是「小模型打草稿、大模型验收」，但有个尴尬的瓶颈：草稿模型自己也是自回归的，还是得一个token一个token地生成。DFlash的解法很直觉——用扩散模型做草稿。一个轻量级的block diffusion模型在单次前向传播中并行生成所有草稿token，再由目标LLM并行验证。关键技巧是让草稿模型直接利用目标模型已经算好的上下文特征做条件输入，这样草稿质量更高，验收通过率也更高。结果是6倍无损加速，比当前最强的EAGLE-3还快2.5倍。

扩散模型作为草稿生成器打破了投机解码的自回归瓶颈单次前向pass生成全部草稿token，GPU利用率大幅提升6倍加速且完全无损，对推理服务成本有直接影响

原文：DFlash: Block Diffusion for Flash Speculative Decoding

02 代码智能 14B模型写GPU kernel，凭什么超过Claude-4.5-Sonnet？

用LLM生成高性能GPU kernel（如Triton代码）听起来很美好，但训练时有两个坑：一是模型会reward hacking——找到捷径拿高分但kernel实际没变快；二是lazy optimization——模型只保证代码能跑，不追求真正的加速。Dr.Kernel为此构建了一套完整的基础设施。首先是KernelGYM，一个支持多轮交互的分布式GPU训练环境，能检测reward hacking。然后发现GRPO在多轮设定下存在自包含偏差，提出了TRLOO做无偏advantage估计。再用profiling数据构建奖励信号，逼模型追求真实加速而非表面正确。最终Dr.Kernel-14B在KernelBench上匹敌Claude-4.5-Sonnet，多轮测试时47.8%的kernel达到1.2倍以上加速，超过GPT-5的28.6%。

kernel生成的核心难题不是模型能力，而是训练环境和奖励设计GRPO在多轮RL中有自包含偏差，TRLOO是一个值得关注的修正方案14B开源模型超越闭源前沿模型，说明垂直领域的RL训练回报巨大

原文：Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations

03 视频生成长视频为什么前后矛盾？老师自己就没记忆

实时长视频生成是当前最热的方向之一，但现有方案普遍有一致性问题——生成30秒以上的视频就开始「遗忘」前面的内容。Context Forcing找到了结构性原因：主流的streaming tuning框架让长上下文学生跟着短上下文（5秒窗口）老师学，老师自己都看不到完整历史，怎么可能教学生维持全局一致？修复方案很直觉：让老师也看到完整生成历史。为了让这在2分钟级别的视频上计算可行，引入了慢快记忆架构——把线性增长的视觉上下文压缩成两个速率的记忆流，大幅减少冗余。结果是有效上下文从现有方法的2-10秒拉到20秒以上，一致性指标全面超越LongLive和Infinite-RoPE等方案。

长视频一致性问题的根源不在学生模型，而在短记忆老师的监督信号慢快记忆架构是解决视频上下文线性增长的实用方案做视频生成的团队值得关注这个teacher-student范式的修正思路

原文：Context Forcing: Consistent Autoregressive Video Generation with Long Context

04 训练优化模型输出越练越短，不是它在「思考」，是算法有偏差

用可验证奖励做RL训练（RLVR）时，一个常见现象是模型输出长度在训练过程中剧烈变化——有的算法让模型越说越多，有的让它越来越惜字如金直到「输出坍缩」。这到底是模型在学习高效推理，还是算法的副作用？LUSPO从理论上拆解了主流RLVR算法中影响输出长度的因子，发现GSPO的损失函数对输出长度有系统性偏差——长回答和短回答对梯度的贡献不等，导致训练过程中长度不可控。修正方法是让序列级策略优化的损失函数对长度无偏（length-unbiased），从数学上消除这个偏差。在数学推理和多模态推理任务上，LUSPO持续优于GRPO和GSPO。

RLVR训练中的输出长度变化不全是模型行为，很大一部分是算法偏差GSPO存在系统性长度偏差，会导致输出坍缩做RL训练调参时如果遇到长度异常，先检查算法本身的偏差再调reward

原文：Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR

也值得关注

Agent安全不该是「每步都查」，而是「有感觉再查」 安全对齐Spider-Sense用事件驱动的风险感知替代强制安检，分层防御只增加8.3%延迟，误报率最低。链接

让Agent学会预判后果，4B模型媲美闭源前沿 AgentProAct先用环境搜索蒸馏前瞻推理链，再用Monte-Carlo Critic做PPO/GRPO精调，Sokoban和2048上大幅超越开源基线。链接

LLM Agent终于有了世界模型 AgentRWML用sim-to-real gap奖励自监督学习动作-状态转移，在ALFWorld上比纯任务奖励RL高6.9个点，不依赖专家数据。链接

视频生成模型理解物理规则吗？467个测试说「不太行」 评测RISE-Video从常识、空间、专业知识等8个维度评测11个TI2V模型，结果普遍暴露推理能力不足。链接

920万条数学定理的语义搜索引擎 AI for Science从arXiv等8个来源提取定理，用自然语言描述做检索表示，定理级和论文级检索均大幅优于基线。链接

让人形机器人像人一样操作物体 机器人InterPrior用大规模模仿预训练+RL后训练学习统一的人-物交互控制器，支持零样本泛化到未见物体，已有真机部署验证。链接

RAG的检索索引能「越用越聪明」 检索ERM把查询时的扩展增益持久化到检索索引中，零推理开销，在BRIGHT推理密集型任务上提升显著。链接

多模型协作系统里混入恶意模型，性能暴跌8% 安全对齐测试了路由、辩论、模型合并等4种协作方式，安全和推理任务受影响最大，外部监督能恢复95%性能但无法完全免疫。链接

LoRA的低秩假设太保守了 训练优化CoSA用压缩感知理论替代低秩分解，随机投影+可学习核心在10个任务5个模型上持续匹配或超过LoRA/PiSSA。链接

能力控制和对齐是两件事 安全对齐Position paper主张对模型行为设硬限制（能力控制）应独立于偏好对齐，提出数据、学习、系统三层纵深防御框架。链接

GRPO的baseline估计不稳定？用贝叶斯收缩修正 训练优化EBPO在局部组统计和全局先验之间做收缩估计，理论证明MSE更低、梯度不消失，AIME上超过GRPO。链接

投机解码的草稿模型能边推理边进化 推理加速TIDE在serving引擎中嵌入在线草稿适配，复用推理时的hidden states做训练信号，吞吐量比静态投机解码再提升15%。链接

今日观察

今天最突出的信号是RL训练的工程细节正在成为性能瓶颈：LUSPO揭示了GSPO的长度偏差，Dr.Kernel修正了GRPO的多轮自包含偏差，EBPO修补了GRPO的baseline方差问题，DPPO（昨天的论文）重新审视了PPO的ratio clipping——四篇论文从不同角度指出「标准RL算法直接用到LLM上是有问题的」。做RL训练的团队建议系统性地审视当前训练流程中的偏差来源，特别是长度偏差和advantage估计这两个方向。