Lorem Ipsum救回GRPO难题样本

今日概览

  • Skill1把skill检索/使用/蒸馏合进一个policy:同一任务奖励co-train三件事,避免多奖励互相打架;同期SkillOS走另一条路线攻同一件事,agent持续学习的瓶颈正从单次推理转向skill库的运维方式。
  • DCI让agent直接grep原始corpus:跳过embedding、向量索引和检索API,在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/重排序三类baseline,检索瓶颈从算法被挪到接口。
  • LoPE在prompt前拼一段Lorem Ipsum:1.7B到7B规模都比直接重采样原prompt更能救回GRPO的zero-advantage样本,RL探索从output挪到input这条路过去几乎没人认真试过。
  • CDM把DMD搬到连续时间:和Consistency Distillation原本分属两派的「轨迹密度」与「分布匹配」被统一进一个框架,1-4步生成不再依赖GAN/reward补丁。

重点关注

01 Agent 自演化agent的硬骨头在skill库,不在推理

Skill1做的事说出来很朴素:让一个policy同时学会三件事——从skill库检索并重排候选、用选中的skill完成任务、再从这次轨迹里蒸馏出新skill。关键是这三件事共用同一个任务结果信号来训,奖励的低频趋势credit给「选得对不对」,高频波动credit给「蒸馏出的新skill好不好」。之前主流做法是各练各的:skill manager有自己的检索奖励、主policy有任务奖励、蒸馏走离线pipeline,三套奖励经常互相打架,导致整体演化卡在某一环上。ALFWorld和WebShop上的提升主要来自这种统一credit分配,消融实验也确认任何一路credit被砍掉,三件事的协同演化都会退化。同一天另一篇SkillOS(2605.06614)走的是另一条路——把skill库的curation operator本身做成可学习对象——但攻的是同一件事:让skill库从手工运维变成跟主policy一起演化。两篇独立工作押注同一个方向是更值得注意的信号:agent持续学习的真正瓶颈在skill库的运维方式,不在单次任务的推理优化。

Skill1把skill选择、使用、蒸馏合进一个policy用单一任务奖励co-train,避免多奖励互相干扰同期SkillOS从可学习curation operator切入,路线不同但目标一致——skill库要跟主policy一起演化做自演化agent的团队,「外挂skill manager+主policy+离线蒸馏」的拼接架构需要重新考虑。

02 检索 把向量索引拆掉,让agent直接grep原始corpus

对agent来说,检索的瓶颈可能不在算法而在接口。把corpus压成一次top-k相似度查询,agent就做不了精确lexical约束、稀疏线索合取、局部上下文检查和多步假设修正——早期被过滤掉的证据,再强的下游推理也捞不回来。这篇提出的DCI(direct corpus interaction)干脆让agent直接用grep、文件读取、shell和轻量脚本操作原始corpus,不挂embedding、不建向量索引、不走检索API。在BRIGHT、BEIR的若干数据集,以及BrowseComp-Plus、多跳QA上,DCI跑赢了稀疏、稠密、重排序三类强baseline——但论文措辞是「several」个子集而非横扫,规模仍待更多场景验证。作者的判断是当agent推理能力变强,检索质量瓶颈正从算法转向接口分辨率:top-k一次性返回粒度太粗,多步交互才能补回被早期压掉的信号。

「top-k一次性检索」本身是有损接口,agent最需要的精确匹配和多步修正恰好在这一步被压掉DCI不依赖embedding/索引/API,本地或快速演化的corpus天然适配,省掉离线索引的工程负担评估agent检索时值得把「接口设计」列为独立维度,而不是只在embedding和rerank层加力。

03 训练优化 RL训练里被浪费的难题样本,靠一段Lorem Ipsum救回来

GRPO训练有个老大难:一道题采样N次全部答错时,相对优势归零,这批数据和算力相当于白烧。常规思路都在output侧——调奖励函数、加curriculum、加大采样预算。LoPE反过来从input侧动手:在prompt前面拼一段Lorem Ipsum随机词汇,居然就把模型推到了原本走不通的推理路径上。1.7B到7B规模都比直接重采样原prompt更有效,更意外的是其他低困惑度的拉丁文乱码也都管用。把RL探索从output挪到input这一步过去几乎没人认真尝试过——这个方向的剩余空间可能比想象中大。

GRPO的zero-advantage问题让难题样本和算力被浪费,prompt侧扰动是个被忽视的解法方向LoPE只在重采样阶段拼接随机前缀,不改奖励不改架构,工程改动极小做RL训练的团队值得把input space扰动加进尝试清单,可能比再加一轮curriculum更划算

04 图像生成 少步扩散蒸馏的两条主流路线,被一篇论文合到了一起

少步扩散蒸馏一直有两条互相竞争的路:DMD(Distribution Matching Distillation)在几个固定时间步上做分布匹配,但稀疏监督加上反向KL的mode-seeking倾向,容易出伪影和过平滑,往往要靠GAN或reward model补救;Consistency Distillation则沿整条PF-ODE轨迹强制自一致,路线更密但框架不同。CDM(Continuous-Time Distribution Matching)把DMD从固定离散时间步搬到连续时间——用随机长度的动态连续调度让分布匹配发生在轨迹上的任意点,再用student速度场外推出的latent做off-trajectory对齐。结果是在SD3-Medium和Longcat-Image上不靠GAN/reward辅助也能拿到有竞争力的视觉质量。意义不在于又刷了一档指标,而在于把「轨迹密度」和「分布匹配」这两个原本分属两派的思想放进了同一个框架。

关心1-4步推理成本的团队可以重新评估质量天花板,DMD路线现在不再依赖GAN/reward补丁连续时间调度+off-trajectory对齐是这次的关键技术动作,值得跟进复现两条蒸馏路线被统一在一个解释框架下,后续工作大概率会沿这个方向继续整合。
Lorem Ipsum救回GRPO难题样本

也值得关注

05
和Skill1同天的另一条skill-library路线 AgentSkillOS把「哪条skill值得留」当成可训练决策,聚焦curation operator的学习。arXiv
06
给agentic RL显式注入trajectory-level strategy采样 Agent改善long-horizon任务里reactive policy的探索与credit assignment。arXiv
07
把「自动做研究」落到一个外部度量驱动的闭环里 Agent由专门agent协作产出可审计的trial轨迹,而非单一checkpoint。arXiv
08
diffusion RL fine-tuning的多reward平衡问题 图像生成MARBLE不再训多专家或固定加权,给出一种端到端的方案。arXiv
09
视频reward model把reasoning和scoring解耦 视频生成先想清楚再打分,给生成视频对齐人类偏好的下一步。arXiv
10
Cola DLM做层次化latent diffusion语言模型 模型架构给非AR文本生成的一个完整代际尝试,关心AR替代路线的可以扫一眼。arXiv
11
长context理解换思路 模型架构MiA-Signature用一个紧凑表征近似全局激活的下游影响,避开full attention的O(N²)。arXiv
12
TIDE质疑「token索引只在embedding层注入一次」这条默认设计 模型架构每层都重新注入token身份,解决rare token和长程退化。arXiv

今日观察

Skill1、SkillOS、StraTA三篇放在一起读,能看到一个共同动作:把agent里以前靠手工脚本或写死规则维护的环节,改造成跟主policy一起RL训练的可学习组件。三篇动的位置各不相同——Skill1动skill operator(检索/使用/蒸馏),SkillOS动curation operator(哪条skill值得留进库),StraTA动strategy生成(trajectory-level的探索策略)——但都在攻同一件事:agent系统里那些「看起来不需要学习的固定逻辑」其实可以、也应该和policy共同优化。这条线索比单看任何一篇都更能解释为什么近几周agent RL的论文密度突然变高。

具体可以做的事:如果在做agent,花十分钟列一张表——你的系统里还有哪些「固定逻辑」模块(路由、过滤、记忆挑选、工具选择、重写、降级策略……)目前靠手工脚本或写死的启发式维护?逐项判断哪些值得纳入RL co-training,哪些是真没必要。优先看那些奖励信号能直接传过去、且当前规则启发式带来明显失误的环节,这是最容易拿到收益的位置。