RL训练数据不够用？把简单题拼成难题就行

今日概览

把做对的简单题拼成新难题，Composition-RL让RLVR训练数据的有效利用率大幅提升，4B到30B模型一致涨点
5B参数做到80B的活。DeepGen 1.0在图像生成和编辑上同时超越体量大十几倍的对手，代码权重全开源
学生不仅能学老师，还能超过老师。ExOPD通过「奖励外推」打破蒸馏的性能天花板，多领域专家知识可合并回小模型
1张A6000D跑100万token上下文，MiniCPM-SALA用稀疏+线性注意力混合架构把长上下文推理成本砍到原来的1/3

重点关注

01 训练优化 RL训练的数据用完了？把简单题拼起来就是新难题

RLVR（强化学习+可验证奖励）训练大模型推理能力效果很好，但有个现实问题：训练题目是有限的，越练通过率越高，大量「已经做对了」的题目对训练没有贡献，等于白白浪费算力。以前的做法是优先挑难题练，但反过来太简单的题越来越多也没人管。Composition-RL的思路很直接：把多道简单题自动组合成一道新的复合题，答案可验证（每道子题独立判对错），相当于把「废弃数据」变成有挑战性的新训练样本。从4B到30B的模型上都有稳定提升，带课程学习（逐步增加组合深度）的变体效果更好。更实用的一点是这个方法天然支持跨领域组合——把数学题和代码题拼在一起训练，模型的跨域推理能力也能受益。

解决RLVR训练后期大量简单题浪费的问题自动组合+可验证，不需要人工造新题跨领域组合是额外bonus，一个训练框架覆盖多种能力

原文：Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

02 图像生成 5B参数凭什么打赢80B？

统一的图像生成+编辑模型是趋势，但当前的方案动辄10B以上参数，训练和部署成本都很高。DeepGen 1.0只有5B参数，却在生成和编辑两个方向同时拿下强结果：WISE上超越80B的HunyuanImage达28%，UniREditBench上超越27B的Qwen-Image-Edit达37%。核心设计是Stacked Channel Bridging——从VLM的多层提取层级特征，用可学习的「think tokens」融合后传给生成骨干网络，让小模型也能获得结构化的推理引导。训练流程分三阶段：对齐预训练、联合微调、再用混合奖励的GRPO做强化学习。整个训练只用了约5000万样本。代码、权重、数据集全部开源，对想做统一生成模型但苦于算力的团队来说是直接可用的起点。

5B参数在生成和编辑上双双超越体量大一个量级的模型三阶段训练+GRPO强化学习是关键全开源，降低统一多模态生成的入门门槛

原文：DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

03 训练优化蒸馏的学生能超过老师吗？可以，只要你敢「外推」

模型蒸馏的天花板通常就是老师模型的性能——学生再怎么学也只是逼近老师。G-OPD（广义在策略蒸馏）把蒸馏重新理解为一种密集KL约束的RL问题，然后发现了一个关键杠杆：奖励缩放因子。标准蒸馏相当于把奖励信号和KL约束等权对待（缩放因子=1），而把缩放因子调到大于1——作者称之为ExOPD（奖励外推）——就能让学生突破老师的性能上限。在一个特别有实用价值的场景中，把不同领域专家模型的知识合并回原始学生模型时，ExOPD使学生同时超过了每个领域的专家老师。对做模型压缩和知识融合的团队来说，这个「缩放因子>1」的trick非常值得一试。

蒸馏=密集KL约束RL，这个统一视角打开了调参空间奖励外推（缩放因子>1）让学生超越老师成为可能多领域专家知识合并回小模型的实用性很强

原文：Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

04 模型架构 1张消费级GPU跑100万token，长上下文不一定要大集群

8B级别的全注意力模型在256K token时已经吃不消内存，100万token更是不可能。MiniCPM-SALA（清华）的方案是混合注意力：1/4的层用稀疏注意力（InfLLM-V2）保留精确的长程建模能力，3/4的层用线性注意力（Lightning Attention）降低全局计算开销，再配合混合位置编码处理不同注意力机制的位置信号。更实用的是它不需要从头训——提供了一个持续训练框架，把已有的Transformer模型转换成混合架构，训练成本只要从头训的25%。在单张NVIDIA A6000D上，256K token推理速度是全注意力的3.5倍，支持最长100万token上下文。

稀疏+线性注意力1:3混合是长上下文的高性价比方案从已有模型持续训练，成本仅为从头训的25%单GPU百万token级上下文，降低长文档/长对话的部署门槛

原文：MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

也值得关注

机器人学会「想象未来再动手」 机器人GigaBrain-0.5M*用世界模型生成的想象轨迹做RL训练，叠衣服、装箱、做咖啡等复杂操作提升约30%，RoboChallenge排名第一。链接

让模型「想久一点」就能推理得更好 推理Length-Incentivized Exploration用长度奖励+冗余惩罚鼓励模型在上下文中多探索多验证，域内任务平均+4.4%，域外+2.7%。链接

扩散语言模型也有了自己的「多数投票」 推理dVoting利用dLLM可以在任意位置并行生成的特性，通过一致性分析找出不确定token重新采样，GSM8K提升最高7.66%，无需训练。链接

让模型「画草稿」来验证自己的推理 推理Thinking with Drafting把视觉推理重新定义为「光学解压缩」，模型先用DSL画出逻辑结构再自我验证，比直接回答更可靠。链接

法律推理Agent学会了「探索-验证-记忆」 AgentLawThinker的DeepVerifier在每次检索后从知识准确、事实法律相关性、程序合规三个维度做原子级验证，比直接推理提升24%。链接

矢量简笔画也能搞视觉错觉 图像生成Stroke of Surprise让一幅画随笔画增加而发生语义「变身」（鸭子变绵羊），用双分支SDS和Overlay Loss实现。链接

训练数据配比终于有了系统化框架 训练优化AI2的Olmix研究数据混合的设计空间，提出mixture reuse机制：数据集更新后只重算受影响的部分，节省74%计算量。链接

越狱攻击在模型内部留下可检测的「指纹」 安全对齐对GPT-J、LLaMA、Mistral等模型的层级分析发现，越狱prompt在隐藏层有一致的结构性模式，选择性绕过高敏感层可阻止78%的攻击。链接

多模态RL的功劳应该归谁？只有15%的token真正「看了图」 多模态AT-RL发现跨模态attention连接中只有少量「锚定token」在做视觉推理，选择性强化这些token就能让32B模型超过72B基线。链接

语音大模型听到和读到的信息冲突时，10倍概率选择相信文本 多模态ALME基准跨8种语言测试发现，这不是音频质量的问题，而是LLM推理层对文本表征的偏好，LoRA微调语言模型层可将文本偏向减半。链接

GPT-4o并没有真正的心智理论 评测Yale研究发现LLM在标准ToM任务上得分高，但在逻辑等价的变体任务上失败，且行为预测和心理状态推理之间缺乏一致性。链接

今日观察

今天的highlight里有三篇都在解决同一类问题：RL训练中如何从有限数据里挤出更多信号。Composition-RL把简单题组合成复合题，ExOPD通过奖励外推让蒸馏突破教师上限，Length-Incentivized Exploration用长度奖励鼓励模型多探索——三条路径，共同指向「提高每条训练数据的边际收益」。做RL post-training的团队值得把这三个方法放在一起对比实验，特别是Composition-RL的跨域组合和ExOPD的多专家合并，组合起来可能有更大空间。