SFT越强，RL反而越弱？

今日概览

SFT越强，RL反而越弱？ PEAR用重要性采样重加权SFT损失，让SFT阶段为下游RL做好准备，AIME2025上pass@8提升14.6%
知识蒸馏70%的计算是浪费，SE-KD用学生模型自身的熵来选择蒸馏位置，wall time降70%、存储省80%，精度不降
LLM内部藏着类似大脑的奖励子系统：Stanford团队在hidden states中找到了编码「期望值」和「预测误差」的value neuron和dopamine neuron
离散扩散模型终于不用在理解和生成之间二选一了。XDLM统一了两种噪声范式，8B模型32步生成MBPP翻倍

重点关注

01 训练优化 SFT练得越好，RL训完反而越差？

这可能是最违反直觉的训练现象之一：精心优化的SFT模型，经过同样的RL训练后，竟然打不过更弱的SFT起点。PEAR团队追溯了原因——传统SFT用离线数据训练，但RL阶段是online的，两者的数据分布存在根本错配。SFT越强，模型就越贴合离线数据的分布，离RL的online探索空间反而越远。PEAR的方案是在SFT阶段就用重要性采样对loss做重加权，让训练更偏向RL将要探索的分布。方法分token、block、sequence三个粒度，可以叠加到标准SFT上，额外开销很小。在Qwen 2.5/3和DeepSeek蒸馏模型上，PEAR一致提升post-RL性能，AIME2025上pass@8最高提升14.6%。

SFT和RL不应该独立优化，分布错配是「SFT越强RL越弱」的根源重要性采样重加权是个低成本的修复方案做推理模型训练的团队在设计SFT阶段时就该考虑下游RL的需求

原文：Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

02 训练优化知识蒸馏的大部分计算是无用功

大模型蒸馏到小模型时，传统做法是把教师模型在每个token位置的完整概率分布都拿来做监督。但直觉告诉我们，不是每个位置都同等重要——模型已经很确定的地方不需要额外指导。SE-KD沿着位置、类别、样本三个轴系统拆解了选择性蒸馏策略，发现学生模型自身的entropy（不确定度）是最好的重要性信号：只在学生「拿不准」的位置提供教师监督就够了。三个轴联合选择（SE-KD 3X）后，教师的输出可以离线缓存而不是实时推理，wall time省了70%，峰值内存降18%，存储降80%，精度没有牺牲。

学生模型的熵是比教师logits更好的蒸馏指导信号三轴联合选择让离线教师缓存变得可行，大幅降低蒸馏的基础设施要求蒸馏不再必须「全量」做，这对资源有限的团队是好消息

原文：Rethinking Selective Knowledge Distillation

03 可解释性 LLM的隐藏层里有一套「奖励系统」，像大脑一样

RL训练的LLM内部到底学到了什么？Stanford团队从生物学类比出发，在模型的hidden states中发现了一个稀疏的「奖励子系统」。其中的value neuron编码了模型对当前状态「价值」的内部预期——类比大脑的奖赏回路。更有意思的是，当模型的预期和实际奖励出现偏差时，另一组dopamine neuron会高强度激活，编码的正是「预测误差」（RPE）信号。这些神经元在不同数据集、不同规模、不同架构之间都很稳健，且从同一基座模型微调出的不同模型之间有显著迁移性。介入实验证实这些神经元对推理能力至关重要。

RL训练的LLM内部自发形成了类似生物奖赏系统的结构value neuron和dopamine neuron为理解模型推理提供了新的机制性入口这些神经元跨模型可迁移，暗示存在通用的学习表征

原文：Sparse Reward Subsystem in Large Language Models

04 模型架构离散扩散模型的理解和生成不再互斥

文本生成领域有两种离散扩散范式：MDLM（遮蔽噪声）擅长语义理解和零样本泛化，UDLM（均匀噪声）擅长少步高质量生成，但各有短板。XDLM的核心洞察是这两种范式本质上是同一个框架的两个特例——通过引入一个参数化的稳态噪声核，可以在二者之间平滑插值。实际好处很直观：零样本文本理解比UDLM高5.4分，少步图像生成FID从80.8降到54.1。扩展到8B参数语言模型后，32步生成MBPP得分15.0，比baseline翻了一倍。代码已开源。

MDLM和UDLM是同一数学框架的两个极端，XDLM找到了更优的中间态少步高质量生成对推理时计算预算有限的场景直接有用8B规模验证说明方法可扩展，值得做生成模型的团队跟进

原文：Balancing Understanding and Generation in Discrete Diffusion Models

也值得关注

多LoRA Agent系统的KV cache浪费严重 推理加速LRAgent将cache分解为共享基座+低秩适配两部分，用Flash-LoRA-Attention避免展开到全维度，吞吐和首token延迟接近完全共享方案。链接

文生图的RL训练有个被忽视的问题：prompt过拟合 图像生成PromptRL在Flow Matching的RL循环中加入可训练的prompt改写Agent，GenEval 0.97、PickScore 24.05，rollout数量减半。链接

SAE的线性假设丢失了组合语义 可解释性PolySAE在解码器中加入高阶交互项，用低秩张量分解控制参数开销（GPT2上仅+3%），probing F1平均提升8%，交互权重和共现频率几乎不相关。链接

Transformer训练不稳定？可能是normalization没选对 模型架构SimpleGPT用SimpleNorm稳定激活尺度，理论上降低Hessian谱范数，实践中7B模型学习率可以开到常规的3-10倍，训练loss比LLaMA2+QKNorm低0.08。链接

日语金融NLP连最强模型都做不好 评测Ebisu benchmark包含隐含承诺识别和嵌套术语提取两个任务，SOTA模型表现仍有大幅提升空间，增大模型和领域适配都帮助有限。链接

库迁移不用手工写规则了 代码智能SPELL用LLM生成迁移示例，再由Agent合成为可复用的PolyglotPiranha转换脚本，Carnegie Mellon出品。链接

今日观察

今天的两篇训练优化论文共同指向一个主题：训练流水线中被忽视的错配问题。PEAR揭示了SFT和RL之间的分布错配，SE-KD揭示了教师监督和学生需求之间的注意力错配。两篇都不是提出全新方法，而是重新审视现有流程中「想当然」的做法，用简单的修正获得显著收益。同时，Stanford的奖励子系统研究和PolySAE都在推进对模型内部机制的理解——前者从RL视角，后者从特征交互视角。做后训练流水线的团队值得重新审视SFT阶段的设计，把「为RL做准备」纳入优化目标。