RLVR训练数据不够用？从互联网文本里无限合成就行

今日概览

RLVR训练数据不够用？从互联网文本里无限合成就行。Golden Goose把未标注网页文本变成可验证推理任务，0.7M规模数据集让饱和模型重获增长，1.5B和4B模型刷新15项基准SOTA
扩散语言模型最大的计算浪费被堵上了，回收被丢弃的token表征让AIME准确率接近翻倍。Residual Context Diffusion只需约10亿token就能升级现有dLLM
Blackwell GPU的FP4端到端预训练终于追平BF16精度：Quartet II用新的无偏量化方法实现4.2倍加速，kernel已开源
推理模型越强越不安全，但修复不需要外部教师。ThinkSafe用模型自身的潜在安全知识生成对齐数据，效果超过GRPO且计算成本大幅降低

重点关注

01 训练优化 RL训练数据见顶了？从网页文本里无限造

RLVR（带可验证奖励的强化学习）是当前让LLM学会推理的核心手段，但有个现实瓶颈：可验证的训练数据就那么多，模型训着训着就饱和了。Golden Goose提出了一个极其简单的思路——把互联网上那些「不可验证」的文本（比如科学教材）改造成多选填空题，由LLM自动找出关键推理步骤并生成干扰项。用这种方法从数学、编程、通用科学领域合成了GooseReason-0.7M数据集。效果很直接：已经在现有RLVR数据上饱和的模型，喂了这些数据后又开始涨了，1.5B和4B-Instruct模型在15个基准上达到新SOTA。更有说服力的是在网络安全领域的验证——从FineWeb原始网页里合成的训练数据，让Qwen3-4B超过了经过专门预训练和后训练的7B领域模型。

互联网文本是几乎无限的推理训练素材，关键在于如何把它变成可验证格式模型在现有数据上饱和不代表RL训练到头了，换数据源能重新启动增长小模型+好数据可以打赢大模型+通用数据

原文：Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

02 模型架构扩散语言模型最大的浪费被堵上了

扩散语言模型（dLLM）最吸引人的地方是可以并行解码，但当前最好的方法有个巨大浪费：每一步只保留最有信心的几个token，其余全部丢掉重来。Residual Context Diffusion（RCD）发现这些被丢弃的token并非一无是处——它们的表征里包含丰富的上下文信息。RCD把这些「废料」转化为残差信号注入下一步去噪，相当于让模型在迭代间保留记忆。训练上也很巧妙，用解耦的两阶段流水线绕开了反向传播的内存瓶颈，只需约10亿token就能把现有dLLM转换成RCD范式。效果很显著：在多个基准上提升5-10个百分点，AIME上准确率接近翻倍，达到同等精度所需的去噪步骤减少4-5倍。

dLLM的「丢弃再重做」策略浪费了大量已有计算保留中间表征做残差注入是低成本的改进路线约10亿token的转换成本意味着现有dLLM可以快速升级

原文：Residual Context Diffusion Language Models

03 推理加速 NVFP4端到端预训练终于追平BF16了

NVIDIA Blackwell GPU硬件支持NVFP4格式，理论上能让大模型预训练全程跑在4位精度上。但之前的量化训练方法为了保证梯度无偏性，不得不在精度上让步，和标准的FP16/FP8训练还有明显差距。Quartet II的核心贡献是一种新的无偏量化方法MS-EDEN，量化误差比随机舍入（stochastic rounding）低2倍以上。把它集成到线性层的全NVFP4方案后，前向和反向传播的梯度估计都一致更好。在1.9B参数、38B token规模的端到端训练中验证了效果，同时提供了Blackwell GPU上的kernel实现，相比BF16最高加速4.2倍。

FP4端到端预训练从「能跑但掉精度」进入「不掉精度且快4倍」阶段Blackwell GPU用户有了实际可用的量化训练方案对预训练成本敏感的团队值得跟进这条路线

原文：Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation

04 安全对齐推理模型越强越不安全？让它自己修

大型推理模型（LRM）为了追求推理能力，RL训练时过度优化「顺从性」，导致面对有害请求时反而更容易配合。现有的修复方法依赖外部教师模型蒸馏安全行为，但这引入了分布偏移，会损伤模型原生的推理能力。ThinkSafe的关键洞察是：虽然顺从性压制了安全机制，模型内部其实还保留着识别危害的潜在知识。通过轻量级的拒绝引导（refusal steering），解锁模型自身的安全推理能力，让它生成分布内的安全响应作为训练数据。在DeepSeek-R1-Distill和Qwen3上的实验显示，ThinkSafe在安全性上显著优于基线，推理能力基本无损，而且计算成本比GRPO低得多。

RL训练推理能力和安全性之间存在张力，追求一个会损害另一个模型自身的安全知识被压制但没消失，可以通过引导技术解锁自生成对齐避免了分布偏移，在安全和推理之间取得了更好的平衡

原文：THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

也值得关注

让AI自动画论文配图，292个NeurIPS案例验证 AgentPaperBanana用多智能体协作生成学术插图，在忠实度、可读性、美观性上全面超越基线，HF获137票。链接

把CoT压缩成图片再提取语义，推理效率和效果都更好 推理ReGuLaR用VAE框架把显式推理链压缩到潜在空间，通过渲染成图片提取视觉语义表征来保留信息，甚至超过了显式CoT。链接

频率域分析揭示dLLM的生成偏好 模型架构FourierSampler发现低频成分编码全局结构、高频编码局部细节，用频域滑窗实现「先结构后细节」的生成，LLaDA-8B上提升20%。链接

语音大模型的推理部署有了统一方案 推理加速VoxServe用模型-执行抽象解耦架构和系统优化，在可比延迟下吞吐量提升10-20倍，代码已开源。链接

用100次采样就能预测1000次攻击的成功率 评测SABER用Beta分布建模Best-of-N采样下的越狱风险，预测误差从12降到1.66，揭示出看似安全的模型在并行攻击下的非线性风险放大。链接

测试时自我进化：让模型自己出题、自己做、自己变强 推理TTCS用两个策略共同演化，一个生成渐进难度的问题变体，一个用自洽性奖励更新自身，在数学推理上持续提升。链接

Perplexity做模型选择可能选错方向 推理Google的理论分析证明，只要模型对任何序列有高置信预测，就必然存在低perplexity但预测错误的序列。链接

GRPO太「软」了，直接二分正负样本效果更好 推理ReNCE用噪声对比估计替代优势估计，不需要复杂的裁剪和过滤技巧，在数学基准上和DAPO持平。链接

LLM服务20倍恢复速度提升 推理加速KevlarFlow通过解耦初始化、动态流量路由和后台KV Cache复制，把硬件故障恢复时间缩短20倍。链接

今日观察

今天扩散语言模型一下子冒出三篇高质量工作——RCD回收废弃token、FourierSampler做频域引导、Masked Diffusion的正则化调优。dLLM正在从「概念验证」快速走向「工程可用」，并行解码的实际效率瓶颈正在被逐一解决。同时，RLVR训练数据扩展（Golden Goose）和FP4预训练（Quartet II）都指向同一个方向：让更多人以更低成本训练更强的模型。做推理模型训练的团队值得把dLLM解码优化和RLVR数据合成加入技术跟踪列表。