奥赛金牌打包成两步配方

今日概览

奥赛金牌从单点能力打包成两步配方：reverse-perplexity curriculum SFT 加两阶段 RL，30B-A3B backbone 拿下 IMO/IPhO 金牌；能否跨 backbone 复现是判断价值的关键。
多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标，在 ALFWorld、WebShop、Search-QA 上比 GRPO 提升 7–10 个点。
AR 的精度和 diffusion 的速度第一次同框：Orthrus 用 dual-architecture 共享 KV cache，声称 lossless inference、最高 7.8 倍加速。
镜头控制的视频生成可能根本不用专门 encoder：Warp-as-History 把相机轨迹形变当伪历史帧，冻结模型即有 zero-shot 跟随能力。
多跳 RAG 的瓶颈不在检索而在中间状态——PyRAG 把推理写成可执行 Python，错误由执行环境抓而非模型自检。

重点关注

01 推理奥赛金牌正在变成一份可套用的配方

奥赛级推理过去更像是顶级实验室才能复现的能力，SU-01给出的角度是把它写成一份能套到任意post-train过的reasoning backbone上的统一recipe。配方只有两步关键动作：先用reverse-perplexity curriculum（按「反向困惑度」排序难度）做SFT，灌输证明搜索和自检行为；再用两阶段RL把这些行为放大——先是可验证奖励的RL，再过渡到证明级RL；最后用test-time scaling再榨一点。作者用30B-A3B的backbone、约34万条sub-8K token的轨迹SFT+200步RL，做出了能稳定处理10万token以上推理链的模型，拿下IMO 2025/USAMO 2026和IPhO 2024/2025金牌。

但摘要里的「simple and unified」要打折扣。reverse-perplexity curriculum究竟怎么定义难度顺序、那34万条高质量轨迹从哪来、没有奥赛级标注数据的团队能不能复现，这几个问题摘要都没回答，需要看全文确认。如果recipe真能套到别的reasoning backbone上，那行业里训推理模型的成本结构会被重新写一遍；如果套不上、关键全在数据质量，那这又是一个「复现需要前沿实验室级资源」的故事。

奥赛金牌从单点能力被打包成两阶段recipe（curriculum SFT + 两阶段RL），是否能跨backbone复现是判断价值的关键reverse-perplexity curriculum和高质量轨迹数据是配方里的暗坑，没看到细节前别假设复现成本低30B激活3B的MoE能稳定跑10万token以上推理链，对做长链推理产品的团队是个工程参考点

原文：Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

02 Agent 多轮 agent 训练里，模型只知道「这次失败了」远远不够

在 ALFWorld、WebShop 这类多步交互任务里，RL 给的只有一个轨迹结束时的总奖励——模型走了十几步出错，却不知道是哪一步开始走偏的。一个自然的补救是 OPSD（On-Policy Self-Distillation）：让一个看到更多上下文的「教师分支」在每个 token 上给出 dense 监督。但这套在单轮 reasoning 上好用的方法直接搬到多轮 agent 就崩——多轮里的误差会逐步放大，教师自己的信号也跟着不稳；而且教师否决一个 token，可能是模型技能不行，也可能只是教师当时没检索到合适的技能，不能一概当作负样本。SDAR 的做法是把 self-distillation 降级为「门控辅助目标」——RL 还是主干，蒸馏信号经过一个 sigmoid 门，对教师明确认可的正样本加强，对教师否决的负样本柔性衰减。在 Qwen2.5/Qwen3 上比 GRPO 在 ALFWorld +9.4%、WebShop +10.2%、Search-QA +7.0%，更重要的是没有出现 naive GRPO+OPSD 的训练崩溃。

多轮 agent 的 RL 痛点不是算法太弱，而是奖励信号粒度太粗，dense supervision 是值得投入的方向直接复用单轮蒸馏会炸，多轮场景需要重新设计监督的强弱接口提升数字在多轮交互任务上拿到，比刷推理 benchmark 更说明 agent 训练范式的进展，但要看是否在更长 horizon 仍稳定

原文：Self-Distilled Agentic Reinforcement Learning

03 推理加速不用选边站：AR的精度和diffusion的速度第一次同框

自回归解码（AR）一个一个吐token，慢但准；扩散语言模型并行出token，快但质量掉档。Orthrus提出一个dual-architecture方案：冻结原有LLM，加一个轻量可训练模块，让两个视图共享同一份KV cache——AR头负责prefill保证表示精度，diffusion头负责并行生成。两个视图之间用exact consensus机制对齐，作者声称做到lossless inference，最高7.8倍加速，内存开销O(1)。听起来很漂亮，但dual架构的训练成本和那个「轻量模块」到底多轻、consensus在长序列上的退化情况，是看全文要重点查的地方。

AR保真+diffusion并行的组合而不是二选一，是这一波加速思路里值得跟的方向声称lossless+O(1)内存，对部署友好但需要在真实推理负载下验证做高吞吐推理服务的团队可以关注它能不能直接挂在现有Transformer上。

原文：Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion

04 视频生成现成视频模型早就会跟镜头轨迹，只是没人这么用过

镜头控制的视频生成长期靠两条路：要么训练独立的camera encoder加上大规模标注视频微调，要么推理时做优化牺牲速度。Warp-as-History换了个思路——把相机轨迹引起的画面形变直接当成「伪历史帧」，喂给模型自带的视觉历史通道，对齐位置编码、丢掉无效token即可。冻结的视频模型在这个接口下就显示出非平凡的零样本镜头跟随能力，再加一段标注视频做LoRA轻量微调，能泛化到未见场景。一段训练视频听上去夸张，但泛化具体覆盖到什么程度（场景内容差异大时是否仍稳）需要看全文实测。

镜头控制可能根本不需要专门的camera encoder，复用模型现成的历史帧路径就行零训练阶段已有可用的zero-shot能力，一段视频做LoRA是加成而非门槛做可控视频生成的团队可以先在自己backbone上跑这条零训练接口，估天花板再决定是否上重型方案

原文：Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

05 检索把多跳推理当代码写，错误就能被编译器抓住

多跳问答里 RAG 翻车，常常不是检索质量不行，而是中间状态藏在自然语言里——模型自己说自己推到哪一步，query 漂移没人察觉，错了也只有产生错误的那个模型来反思。PyRAG 把这套流程改写成可执行的 Python 程序：每次 retrieval 是一个函数调用，中间答案是显式变量，整条推理链变成可以重跑、可以单步检查的 trace。错误不再依赖模型自检，而是靠执行反馈和编译器报错来定位，自修复也有了 grounded 的信号。在 HotpotQA、MuSiQue、2WikiMultihopQA 等五个 benchmark 上，组合性越强的数据集提升越明显，训练-free 和 RL 两种设置下都稳定领先。对自建 multi-hop QA 系统的团队来说，这条路的价值不在指标，而在于把「prompt 调到玄学」的中间步骤换成了能被工程方法管控的代码执行。

多跳 RAG 的真正瓶颈是中间状态不可见，不是检索本身用代码表达 reasoning 让错误能被执行环境而不是模型自身发现做 multi-hop QA 的团队可以把这套思路当作脱离 prompt 工程的工程化模板

原文：Retrieval is Cheap, Show Me the Code: Executable Multi-Hop Reasoning for Retrieval-Augmented Generation

也值得关注

MemEye 把「答案能从 caption 推出来」这条诟病当回事 多模态评测专挑必须保留细粒度视觉证据才能答对的任务，给多模态 agent memory 一个更硬的标尺。链接

Multi-agent failure attribution 的综述 Agent错误如何跨 agent 传播且难以诊断，想做 multi-agent 产品的人可以扫一眼。链接

Many-shot ICL 的 scaling 规律在 CoT/reasoning 任务上不成立 推理给做 long-context reasoning prompt 调优的人一个反直觉提醒。链接

Orchard：面向 agent 训练（不仅是 orchestration）的开源框架 Agent填的是「open-source agent training infra」这个空档。链接

把 reasoning RL 的自改进从「造数据」升到「造环境」 训练优化zero-data 自演化的一种具体形式。链接

SFT data selection 在 generalization 与 extrapolation 之间存在 tradeoff 训练优化过去 perplexity/length/difficulty 启发式结论不一致的根本原因。链接

RealICU 不再把「医生历史动作」当 ground truth 评测ICU 长上下文临床数据的 agent benchmark，医疗 AI 评测的一次方法论升级。链接

VGGT-Edit：Feed-forward 的 3D 场景编辑 模型架构用 residual field prediction 做动态响应，3D 内容工具链相关方向值得一看。链接

Video2GUI 把视频转成 GUI 交互轨迹 Agent用于 GUI agent 预训练，直击 GUI agent 数据稀缺的痛点。链接

Nexus：时间序列预测+文本上下文的 agentic 框架 AgentTSFM 和 LLM 拼接的一种工程形态。链接

今日观察

今天三篇论文凑在一起，从三个不同角度给出了同一个具体结论。SU-01（2605.13301）用 reverse-perplexity curriculum 训奥赛模型——按「反向」困惑度排难度顺序，恰好是 SFT 时代「困惑度低优先」直觉的对立面。Many-Shot CoT-ICL（2605.13511）发现 many-shot ICL 在普通任务上越来越管用的 scaling 规律，到 CoT/reasoning 任务上就不再成立，demonstration 数量加多反而可能伤性能。Data Difficulty and the Generalization–Extrapolation Tradeoff（2605.12906）直接把 SFT data selection 文献里「perplexity/length/difficulty 启发式结论互相打架」这个老问题归因到 generalization 与 extrapolation 的结构性 tradeoff——选不同 difficulty 区间的数据，本来就在优化两个不同的目标。

三条线分别落在课程顺序、in-context demonstration、data selection 三个动作上，指向同一件事：reasoning model 的数据侧已经长出了自己的规律，从 instruction tuning 时代沿用下来的那套启发式在这里结论不再一致，而且不一致是有结构性原因的，不是 noise。

具体到手上的工作：如果你正在做 reasoning 微调，直接把 SFT 时代的 data curation playbook 套过来风险已经不小了——curriculum 顺序、demo 数量、difficulty 度量三件事都该按 reasoning 任务的特性重新跑一轮 ablation，把「低困惑度优先」「shot 越多越好」「挑中等难度」这类直觉先当成假设而不是结论，验证完再写进 pipeline。

今日概览

重点关注

01 推理 奥赛金牌正在变成一份可套用的配方