Lorem Ipsum救回GRPO难题样本

今日概览

Skill1把skill检索/使用/蒸馏合进一个policy：同一任务奖励co-train三件事，避免多奖励互相打架；同期SkillOS走另一条路线攻同一件事，agent持续学习的瓶颈正从单次推理转向skill库的运维方式。
DCI让agent直接grep原始corpus：跳过embedding、向量索引和检索API，在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/重排序三类baseline，检索瓶颈从算法被挪到接口。
LoPE在prompt前拼一段Lorem Ipsum：1.7B到7B规模都比直接重采样原prompt更能救回GRPO的zero-advantage样本，RL探索从output挪到input这条路过去几乎没人认真试过。
CDM把DMD搬到连续时间：和Consistency Distillation原本分属两派的「轨迹密度」与「分布匹配」被统一进一个框架，1-4步生成不再依赖GAN/reward补丁。

重点关注

01 Agent 自演化agent的硬骨头在skill库，不在推理

Skill1做的事说出来很朴素：让一个policy同时学会三件事——从skill库检索并重排候选、用选中的skill完成任务、再从这次轨迹里蒸馏出新skill。关键是这三件事共用同一个任务结果信号来训，奖励的低频趋势credit给「选得对不对」，高频波动credit给「蒸馏出的新skill好不好」。之前主流做法是各练各的：skill manager有自己的检索奖励、主policy有任务奖励、蒸馏走离线pipeline，三套奖励经常互相打架，导致整体演化卡在某一环上。ALFWorld和WebShop上的提升主要来自这种统一credit分配，消融实验也确认任何一路credit被砍掉，三件事的协同演化都会退化。同一天另一篇SkillOS（2605.06614）走的是另一条路——把skill库的curation operator本身做成可学习对象——但攻的是同一件事：让skill库从手工运维变成跟主policy一起演化。两篇独立工作押注同一个方向是更值得注意的信号：agent持续学习的真正瓶颈在skill库的运维方式，不在单次任务的推理优化。

Skill1把skill选择、使用、蒸馏合进一个policy用单一任务奖励co-train，避免多奖励互相干扰同期SkillOS从可学习curation operator切入，路线不同但目标一致——skill库要跟主policy一起演化做自演化agent的团队，「外挂skill manager+主policy+离线蒸馏」的拼接架构需要重新考虑。

原文：Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

02 检索把向量索引拆掉，让agent直接grep原始corpus

对agent来说，检索的瓶颈可能不在算法而在接口。把corpus压成一次top-k相似度查询，agent就做不了精确lexical约束、稀疏线索合取、局部上下文检查和多步假设修正——早期被过滤掉的证据，再强的下游推理也捞不回来。这篇提出的DCI（direct corpus interaction）干脆让agent直接用grep、文件读取、shell和轻量脚本操作原始corpus，不挂embedding、不建向量索引、不走检索API。在BRIGHT、BEIR的若干数据集，以及BrowseComp-Plus、多跳QA上，DCI跑赢了稀疏、稠密、重排序三类强baseline——但论文措辞是「several」个子集而非横扫，规模仍待更多场景验证。作者的判断是当agent推理能力变强，检索质量瓶颈正从算法转向接口分辨率：top-k一次性返回粒度太粗，多步交互才能补回被早期压掉的信号。

「top-k一次性检索」本身是有损接口，agent最需要的精确匹配和多步修正恰好在这一步被压掉DCI不依赖embedding/索引/API，本地或快速演化的corpus天然适配，省掉离线索引的工程负担评估agent检索时值得把「接口设计」列为独立维度，而不是只在embedding和rerank层加力。

原文：Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

03 训练优化 RL训练里被浪费的难题样本，靠一段Lorem Ipsum救回来

GRPO训练有个老大难：一道题采样N次全部答错时，相对优势归零，这批数据和算力相当于白烧。常规思路都在output侧——调奖励函数、加curriculum、加大采样预算。LoPE反过来从input侧动手：在prompt前面拼一段Lorem Ipsum随机词汇，居然就把模型推到了原本走不通的推理路径上。1.7B到7B规模都比直接重采样原prompt更有效，更意外的是其他低困惑度的拉丁文乱码也都管用。把RL探索从output挪到input这一步过去几乎没人认真尝试过——这个方向的剩余空间可能比想象中大。

GRPO的zero-advantage问题让难题样本和算力被浪费，prompt侧扰动是个被忽视的解法方向LoPE只在重采样阶段拼接随机前缀，不改奖励不改架构，工程改动极小做RL训练的团队值得把input space扰动加进尝试清单，可能比再加一轮curriculum更划算

原文：Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

04 图像生成少步扩散蒸馏的两条主流路线，被一篇论文合到了一起

少步扩散蒸馏一直有两条互相竞争的路：DMD（Distribution Matching Distillation）在几个固定时间步上做分布匹配，但稀疏监督加上反向KL的mode-seeking倾向，容易出伪影和过平滑，往往要靠GAN或reward model补救；Consistency Distillation则沿整条PF-ODE轨迹强制自一致，路线更密但框架不同。CDM（Continuous-Time Distribution Matching）把DMD从固定离散时间步搬到连续时间——用随机长度的动态连续调度让分布匹配发生在轨迹上的任意点，再用student速度场外推出的latent做off-trajectory对齐。结果是在SD3-Medium和Longcat-Image上不靠GAN/reward辅助也能拿到有竞争力的视觉质量。意义不在于又刷了一档指标，而在于把「轨迹密度」和「分布匹配」这两个原本分属两派的思想放进了同一个框架。

关心1-4步推理成本的团队可以重新评估质量天花板，DMD路线现在不再依赖GAN/reward补丁连续时间调度+off-trajectory对齐是这次的关键技术动作，值得跟进复现两条蒸馏路线被统一在一个解释框架下，后续工作大概率会沿这个方向继续整合。

原文：Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

也值得关注

和Skill1同天的另一条skill-library路线 AgentSkillOS把「哪条skill值得留」当成可训练决策，聚焦curation operator的学习。arXiv

给agentic RL显式注入trajectory-level strategy采样 Agent改善long-horizon任务里reactive policy的探索与credit assignment。arXiv

把「自动做研究」落到一个外部度量驱动的闭环里 Agent由专门agent协作产出可审计的trial轨迹，而非单一checkpoint。arXiv

diffusion RL fine-tuning的多reward平衡问题 图像生成MARBLE不再训多专家或固定加权，给出一种端到端的方案。arXiv

视频reward model把reasoning和scoring解耦 视频生成先想清楚再打分，给生成视频对齐人类偏好的下一步。arXiv

Cola DLM做层次化latent diffusion语言模型 模型架构给非AR文本生成的一个完整代际尝试，关心AR替代路线的可以扫一眼。arXiv

长context理解换思路 模型架构MiA-Signature用一个紧凑表征近似全局激活的下游影响，避开full attention的O(N²)。arXiv

TIDE质疑「token索引只在embedding层注入一次」这条默认设计 模型架构每层都重新注入token身份，解决rare token和长程退化。arXiv

今日观察

Skill1、SkillOS、StraTA三篇放在一起读，能看到一个共同动作：把agent里以前靠手工脚本或写死规则维护的环节，改造成跟主policy一起RL训练的可学习组件。三篇动的位置各不相同——Skill1动skill operator（检索/使用/蒸馏），SkillOS动curation operator（哪条skill值得留进库），StraTA动strategy生成（trajectory-level的探索策略）——但都在攻同一件事：agent系统里那些「看起来不需要学习的固定逻辑」其实可以、也应该和policy共同优化。这条线索比单看任何一篇都更能解释为什么近几周agent RL的论文密度突然变高。

具体可以做的事：如果在做agent，花十分钟列一张表——你的系统里还有哪些「固定逻辑」模块（路由、过滤、记忆挑选、工具选择、重写、降级策略……）目前靠手工脚本或写死的启发式维护？逐项判断哪些值得纳入RL co-training，哪些是真没必要。优先看那些奖励信号能直接传过去、且当前规则启发式带来明显失误的环节，这是最容易拿到收益的位置。