9K样本逼近R1，RL提升大半归SFT

今日概览

9K精选样本训出逼近DeepSeek-R1的4B推理模型，CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量，不在规模
Attention steering第一次能进生产部署：SEKA在频域编辑key embedding绕开FlashAttention兼容性限制，训练免、延迟可忽略。ICLR接收
基础视觉模型的几何先验强到可以替代传感器标定。VGGT-Det在免标定3D检测上比前最优高出4-8个mAP，CVPR接收
RL post-training主要锐化输出分布，不扩展能力边界，控制变量实验显示SFT的支持面才是性能提升的前提

重点关注

01 推理 9K条数据训出的4B模型，凭什么接近DeepSeek-R1？

想训一个能推理的模型，第一步就卡住：你需要长链思维（CoT）轨迹做训练数据，但生成靠谱的CoT轨迹本身就需要一个会推理的模型。这个冷启动困境之外还有两个痛点——开源推理数据集几乎全是数学题，领域覆盖严重偏科；难题的人工标注成本高到不可行。CHIMERA的思路是用现有最强推理模型合成种子数据，但核心贡献不在「合成」本身，而是一套完整的数据工程方案：构建覆盖8个学科、1000+细粒度主题的层级分类法来确保领域均衡；用强模型交叉验证来过滤问题有效性和答案正确性。最终只保留9K条样本——用这些数据post-train的4B Qwen3模型在GPQA-Diamond、AIME 24/25/26等基准上接近或持平DeepSeek-R1和Qwen3-235B。9K条够用这件事反过来说明，推理训练的真正瓶颈在数据的覆盖度和筛选质量，不在规模。对想做推理训练但缺乏数据积累的团队，这是一条门槛显著降低的可复现路径。

冷启动用强模型合成CoT轨迹解决，关键是后续的领域覆盖和交叉验证过滤9K精选样本让4B模型逼近大几十倍的模型，数据工程比堆量重要全流程自动化且可复现，降低了推理训练的入门门槛

原文：CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

02 模型架构 Attention steering终于能在生产环境用了

FlashAttention绕开完整注意力矩阵来省显存，但这也堵死了所有需要操作注意力矩阵的steering方法——想让模型优先关注指定文本（高亮关键指令、强调特定上下文段落），研究里早就能做到，生产环境却一直部署不了。SEKA换了个思路：不碰注意力矩阵，直接在频域对key embedding做谱分解，把目标token对应的潜在方向放大，效果等价但完全兼容高效推理。进阶版AdaSEKA还能根据prompt语义动态组合多个专家子空间，不同意图自动选不同的steering策略。训练免、额外延迟可忽略、显存开销极低，ICLR接收——attention steering第一次真正能进生产部署了。

现有attention steering方法因依赖完整注意力矩阵而无法兼容FlashAttention，一直停留在研究阶段SEKA通过频域编辑key embedding绕过限制，训练免且开销可忽略做prompt可控性和模型引导的团队现在有了可部署的方案

原文：Spectral Attention Steering for Prompt Highlighting

03 多模态精确标定相机位姿？基础模型里可能已经学会了

VGGT（Visual Geometry Grounded Transformer）这类大规模视觉几何模型在训练过程中，内部特征已经隐含了相当强的3D几何先验。VGGT-Det顺着这个发现，设计了两个模块来提取这些先验：一个从VGGT的注意力图中获取语义信息来初始化检测query，另一个跨层聚合几何特征将2D信息逐步提升到3D。这样就绕过了多视角3D检测对精确相机位姿标定的硬性依赖——在ScanNet和ARKitScenes的免标定设定下，分别比之前最好方法高出4.4和8.6个mAP@0.25。CVPR接收，方向务实：与其优化标定流程，不如直接从基础模型里挖出替代品。

基础视觉模型内部的几何先验强到可以替代传感器标定，改变了3D检测的部署前提免标定设定下mAP提升4-8个点，且有代码可复现对手机、无人机等非固定视角场景，消除标定依赖比提升检测精度更有实用价值

原文：VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

04 训练优化 RL post-training的提升，大部分其实该归SFT

一个控制变量实验给出了不太舒服的答案：在医疗VLM上，RL主要做的是「锐化」——把SFT阶段已经学到的能力更稳定地表达出来，而不是学到新能力。研究者在MedMNIST上沿视觉感知、SFT、RL三个轴做隔离测试，发现RL只在模型已有较高Pass@K（采样多次能答对）时才有效，它提升的是Acc@1（一次答对率）和采样效率。换句话说，SFT阶段没把「支持面」撑起来，RL再怎么训也没用。这个发现虽然来自医疗场景，但逻辑适用于所有RL post-training——你看到的提升，到底是RL学到了新东西，还是只是把SFT的成果表达得更稳定？先用Pass@K做个诊断再决定要不要上RL，可能省下不少算力。

RL在VLM上主要锐化输出分布而非扩展能力边界，SFT的支持面才是前提Pass@K高但Acc@1低时RL最有效，反之则浪费算力做RL post-training前先用Pass@K诊断模型是否具备被强化的基础

原文：When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

也值得关注

Mixture of Diffusion把文本理解和视觉生成解耦但共享backbone 模型架构LLaDA-o用masked diffusion处理文本、continuous diffusion处理图像，减少冗余计算。链接

RL在难题上采不到正解时，参考解能引导探索但不能直接模仿 推理人类证明超出模型分布，SFT学不了，但能作为RL搜索的方向锚点。链接

GRPO在过难和过易的问题上advantage都消失 推理DIVA-GRPO用难度自适应的advantage计算恢复梯度信号，ICLR接收。链接

视觉编码器对齐到覆盖1500种语言的SONAR空间 多模态V-SONAR直接复用已有的多语言基础设施做跨模态检索，不需要重训文本端。链接

多agent通信拓扑不该固定 AgentCARD根据任务条件动态生成最优拓扑结构，比固定全连接或链式传递更高效。链接

Fine-tuning破坏安全性的风险在token级而非样本级 安全对齐逐token筛选比整条样本丢弃更精确，保留更多有用训练信号。链接

LLM的embedding空间具有格结构 可解释性把线性表示假说和形式概念分析统一在同一个数学框架下。链接

视觉编程框架做3D空间推理 推理pySpatial零样本且不需要3D训练数据，用代码生成替代端到端学习。链接

遗忘不需要梯度上升或重训 安全对齐直接平滑注意力权重就能稳定消除记忆，副作用比现有方法更小。链接

LUT加空间位移做图像恢复 推理加速ShiftLUT扩大感受野但存储和计算没涨，适合端侧部署。链接

今日观察

RL-for-reasoning有一个具体的工程瓶颈：当问题难度超过模型当前能力时，采样得不到正确轨迹，reward信号归零，训练在这个难度区间完全停滞。今天三篇独立工作各自在不同层级攻击这同一个问题。

CHIMERA在数据层解决：通过合成数据加难度校准，确保训练集在模型能力边界附近有足够密度的样本，让正确轨迹从一开始就有被采到的可能。Learn Hard Problems在搜索策略层解决：模型自己搜不到正解时，用人类参考解引导RL的探索方向——不是直接SFT模仿（超出分布的证明模仿不了），而是把参考解作为搜索空间的锚点。DIVA-GRPO在损失函数层解决：标准GRPO的advantage在过难和过易的问题上都趋近于零，通过自适应难度调整advantage计算来恢复梯度信号。

数据工程、搜索策略、损失函数——三条路线覆盖了训练pipeline的三个不同层级，而它们同时出现指向一个已经收敛的判断：reward sparsity是当前RL-for-reasoning最大的工程瓶颈，比RL算法选择（GRPO vs PPO vs REINFORCE）本身更重要。这个收敛信号比任何单篇论文的实验结果更有信息量，因为它反映的是不同团队在实际训练中反复撞到的同一面墙。

如果你在做推理模型训练，建议先建立一套按难度分桶的诊断机制：检查每个难度区间的Pass@K和非零reward比例。信号断裂的区间就是你最需要投入的地方——数据覆盖、探索引导、损失校正，三条路至少选一条补上。