今日概览
- 奥赛金牌从单点能力打包成两步配方:reverse-perplexity curriculum SFT 加两阶段 RL,30B-A3B backbone 拿下 IMO/IPhO 金牌;能否跨 backbone 复现是判断价值的关键。
- 多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标,在 ALFWorld、WebShop、Search-QA 上比 GRPO 提升 7–10 个点。
- AR 的精度和 diffusion 的速度第一次同框:Orthrus 用 dual-architecture 共享 KV cache,声称 lossless inference、最高 7.8 倍加速。
- 镜头控制的视频生成可能根本不用专门 encoder:Warp-as-History 把相机轨迹形变当伪历史帧,冻结模型即有 zero-shot 跟随能力。
- 多跳 RAG 的瓶颈不在检索而在中间状态——PyRAG 把推理写成可执行 Python,错误由执行环境抓而非模型自检。
重点关注
01 推理 奥赛金牌正在变成一份可套用的配方
奥赛级推理过去更像是顶级实验室才能复现的能力,SU-01给出的角度是把它写成一份能套到任意post-train过的reasoning backbone上的统一recipe。配方只有两步关键动作:先用reverse-perplexity curriculum(按「反向困惑度」排序难度)做SFT,灌输证明搜索和自检行为;再用两阶段RL把这些行为放大——先是可验证奖励的RL,再过渡到证明级RL;最后用test-time scaling再榨一点。作者用30B-A3B的backbone、约34万条sub-8K token的轨迹SFT+200步RL,做出了能稳定处理10万token以上推理链的模型,拿下IMO 2025/USAMO 2026和IPhO 2024/2025金牌。
但摘要里的「simple and unified」要打折扣。reverse-perplexity curriculum究竟怎么定义难度顺序、那34万条高质量轨迹从哪来、没有奥赛级标注数据的团队能不能复现,这几个问题摘要都没回答,需要看全文确认。如果recipe真能套到别的reasoning backbone上,那行业里训推理模型的成本结构会被重新写一遍;如果套不上、关键全在数据质量,那这又是一个「复现需要前沿实验室级资源」的故事。
原文:Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling
02 Agent 多轮 agent 训练里,模型只知道「这次失败了」远远不够
在 ALFWorld、WebShop 这类多步交互任务里,RL 给的只有一个轨迹结束时的总奖励——模型走了十几步出错,却不知道是哪一步开始走偏的。一个自然的补救是 OPSD(On-Policy Self-Distillation):让一个看到更多上下文的「教师分支」在每个 token 上给出 dense 监督。但这套在单轮 reasoning 上好用的方法直接搬到多轮 agent 就崩——多轮里的误差会逐步放大,教师自己的信号也跟着不稳;而且教师否决一个 token,可能是模型技能不行,也可能只是教师当时没检索到合适的技能,不能一概当作负样本。SDAR 的做法是把 self-distillation 降级为「门控辅助目标」——RL 还是主干,蒸馏信号经过一个 sigmoid 门,对教师明确认可的正样本加强,对教师否决的负样本柔性衰减。在 Qwen2.5/Qwen3 上比 GRPO 在 ALFWorld +9.4%、WebShop +10.2%、Search-QA +7.0%,更重要的是没有出现 naive GRPO+OPSD 的训练崩溃。
原文:Self-Distilled Agentic Reinforcement Learning
03 推理加速 不用选边站:AR的精度和diffusion的速度第一次同框
自回归解码(AR)一个一个吐token,慢但准;扩散语言模型并行出token,快但质量掉档。Orthrus提出一个dual-architecture方案:冻结原有LLM,加一个轻量可训练模块,让两个视图共享同一份KV cache——AR头负责prefill保证表示精度,diffusion头负责并行生成。两个视图之间用exact consensus机制对齐,作者声称做到lossless inference,最高7.8倍加速,内存开销O(1)。听起来很漂亮,但dual架构的训练成本和那个「轻量模块」到底多轻、consensus在长序列上的退化情况,是看全文要重点查的地方。
原文:Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion
04 视频生成 现成视频模型早就会跟镜头轨迹,只是没人这么用过
镜头控制的视频生成长期靠两条路:要么训练独立的camera encoder加上大规模标注视频微调,要么推理时做优化牺牲速度。Warp-as-History换了个思路——把相机轨迹引起的画面形变直接当成「伪历史帧」,喂给模型自带的视觉历史通道,对齐位置编码、丢掉无效token即可。冻结的视频模型在这个接口下就显示出非平凡的零样本镜头跟随能力,再加一段标注视频做LoRA轻量微调,能泛化到未见场景。一段训练视频听上去夸张,但泛化具体覆盖到什么程度(场景内容差异大时是否仍稳)需要看全文实测。
原文:Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video
05 检索 把多跳推理当代码写,错误就能被编译器抓住
多跳问答里 RAG 翻车,常常不是检索质量不行,而是中间状态藏在自然语言里——模型自己说自己推到哪一步,query 漂移没人察觉,错了也只有产生错误的那个模型来反思。PyRAG 把这套流程改写成可执行的 Python 程序:每次 retrieval 是一个函数调用,中间答案是显式变量,整条推理链变成可以重跑、可以单步检查的 trace。错误不再依赖模型自检,而是靠执行反馈和编译器报错来定位,自修复也有了 grounded 的信号。在 HotpotQA、MuSiQue、2WikiMultihopQA 等五个 benchmark 上,组合性越强的数据集提升越明显,训练-free 和 RL 两种设置下都稳定领先。对自建 multi-hop QA 系统的团队来说,这条路的价值不在指标,而在于把「prompt 调到玄学」的中间步骤换成了能被工程方法管控的代码执行。

也值得关注
今日观察
今天三篇论文凑在一起,从三个不同角度给出了同一个具体结论。SU-01(2605.13301)用 reverse-perplexity curriculum 训奥赛模型——按「反向」困惑度排难度顺序,恰好是 SFT 时代「困惑度低优先」直觉的对立面。Many-Shot CoT-ICL(2605.13511)发现 many-shot ICL 在普通任务上越来越管用的 scaling 规律,到 CoT/reasoning 任务上就不再成立,demonstration 数量加多反而可能伤性能。Data Difficulty and the Generalization–Extrapolation Tradeoff(2605.12906)直接把 SFT data selection 文献里「perplexity/length/difficulty 启发式结论互相打架」这个老问题归因到 generalization 与 extrapolation 的结构性 tradeoff——选不同 difficulty 区间的数据,本来就在优化两个不同的目标。
三条线分别落在课程顺序、in-context demonstration、data selection 三个动作上,指向同一件事:reasoning model 的数据侧已经长出了自己的规律,从 instruction tuning 时代沿用下来的那套启发式在这里结论不再一致,而且不一致是有结构性原因的,不是 noise。
具体到手上的工作:如果你正在做 reasoning 微调,直接把 SFT 时代的 data curation playbook 套过来风险已经不小了——curriculum 顺序、demo 数量、difficulty 度量三件事都该按 reasoning 任务的特性重新跑一轮 ablation,把「低困惑度优先」「shot 越多越好」「挑中等难度」这类直觉先当成假设而不是结论,验证完再写进 pipeline。