递归MAS省35%token，T2I整张重画

今日概览

递归扩展从单模型迁到multi-agent：RecursiveMAS把整个多agent系统cast成一次latent-space递归计算，9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速，给multi-agent补上一个明确的scaling旋钮。
T2I精修，整张重画反而更彻底：editing-based路线把可改空间压窄导致改不干净，UniGenBench++从61.53推到77.41，给「局部精修」这条默认路径打个问号。
音视频联合训练，先单训再耦合：Mutual Forcing用两阶段训练加自蒸馏，4-8步匹配50步基线、省掉外置teacher模型，自回归流式生成的recipe更直接。
非对称辩论给定制guardrail造数据：BARRED只要task description加少量未标注样本就能合成训练语料，跑赢闭源大模型和专用guardrail，思路对任何边界模糊的分类任务都能挪用。

重点关注

01 Agent 把「递归扩展推理」从单模型搬到multi-agent

最近looped/recursive语言模型给出了一个新的scaling轴：让同一个模型在latent状态上反复迭代以深化推理。RecursiveMAS把这个思路从单模型迁到多agent系统——整个multi-agent系统被cast成一次统一的latent-space递归计算，agents之间通过轻量的RecursiveLink模块传递latent state。这个framing有意思的地方在于：multi-agent一直缺一个明确的scaling旋钮（参数、context、agent数量都不算干净的轴），recursion在单模型上已经被验证过，那agent协作本身能不能走同一条路。9个benchmark（数学、科学、医学、搜索、代码）+ 4种协作模式平均+8.3%accuracy，token用量降34.6%-75.6%，推理1.2-2.4x加速——latent-space递归比text-based多轮交互省掉了大量token往返，这对实际部署比那点精度提升更有价值。但摘要没给分场景拆解，也没说RecursiveLink在异构agent上怎么传递latent state，要看正文才能判断这个迁移是不是真的稳定。

multi-agent系统补上了一个明确的scaling轴——递归深度latent-space状态传递替代text-based多轮对话，token成本可降一个数量级做multi-agent框架的团队值得跟踪RecursiveLink的实现，这是整个迁移能否落地的关键模块。

原文：Recursive Multi-Agent Systems

02 图像生成 T2I精修：局部修不如整张重画

统一多模态模型（UMM）做T2I精修，主流路线（refinement-via-editing）是让模型产编辑指令、只改不对齐的局部、保留对齐部分。这篇直接翻过来：editing instruction描述偏粗，像素级保留又把可改空间压得太窄，导致改不彻底——索性不要编辑指令，用初始图的语义token加目标prompt整张重画。三个benchmark都有提升，其中UniGenBench++从61.53推到77.41幅度最大，Geneval从0.78到0.91也是明显的跳跃。结论很朴素：精修不一定要「小改」，给模型更大的修改空间，对齐反而更彻底。对做图像产品pipeline、习惯用「局部修图」做后处理的团队，这是一次值得重新审视默认路径的实证表态。

T2I精修不一定要「小改」，给模型更大的修改空间反而对齐更彻底editing路线的瓶颈不在模型能力，而在像素级保留把可改空间压窄做图像产品pipeline的团队可以重新评估「局部精修」这条默认路径是否最优

原文：Refinement via Regeneration: Enlarging Modification Space Boosts Image Refinement in Unified Multimodal Models

03 视频生成音视频联合训练的秩序：先单训再耦合，比一步到位更靠谱

做联合音视频生成模型，最朴素的做法是直接拿配对数据从头一起训。Mutual Forcing选择了反向路径——先把音频和视频生成器分别训成熟，再耦合到统一模型上做联合训练，把「多模态联合优化」这一步放到最后。流式生成的设计更值得关注：之前做法（如Self-Forcing）需要先训一个双向teacher，再多阶段蒸馏成因果生成器；Mutual Forcing直接在自回归模型上做，少步与多步共享权重，多步通过自蒸馏提升少步，少步在训练时生成历史上下文提升训练-推理一致性，两个模式互相强化。这套设计省掉了外置teacher，可以直接从真实配对数据学习，训练序列长度也更灵活。最终4-8步匹配50步基线的对比是好看的，但长视频的音画同步保真度还得看demo判断。

多模态联合训练值得参考的秩序——单模态先训成熟再耦合做joint training，避免一开始就在双重目标间拉扯自蒸馏的关键是参数共享，多步教少步、少步喂多步历史，绕过外置teacher模型这一道工序4-8步打平50步的效率数字好看，长视频音画同步质量得看demo再下结论

原文：Mutual Forcing: Dual-Mode Self-Evolution for Fast Autoregressive Audio-Video Character Generation

04 安全对齐让两个 agent 互相辩论，是不是比花钱标注更划算？

边界模糊的分类任务里最贵的从来不是模型，是标注。BARRED 的核心机制是非对称辩论：把 policy 的领域空间先拆成多个维度保证覆盖，再让两个 agent 站在边界两侧辩论一条样本该判正还是判负，分歧消解后留下的就是高保真标签。只要给一段 task description 和少量未标注样本，就能合成一份足够训小模型的语料，结果在多种自定义 policy 上跑赢了闭源大模型和专用 guardrail 模型。消融实验里维度拆解和辩论验证缺一不可——前者管多样性，后者管标签正确率。论文以 guardrail 为验证场景，但这套「用 LLM 给自己造 labeled data」的流程，对任何边界模糊、标注成本高的分类问题都可以挪用。

自定义 policy 不必再选「喂大模型」和「训分类器」二选一，合成数据让小模型路线变得可行非对称辩论的真正价值在边界样本上，generic safety 数据集本来就缺这部分把 guardrail 换成你自己的分类任务（content moderation、意图识别、合规筛选），这套方法论可以直接照搬。

原文：BARRED: Synthetic Training of Custom Policy Guardrails via Asymmetric Debate

也值得关注

DV-World把数据可视化agent评测从code sandbox拉回真实工作流 评测spreadsheet原生操作、跨平台演化、意图对齐，260个任务覆盖三个域，直接戳现有DV agent在single-language creation-only之外的能力上限。链接

用skill graph合成terminal agent的训练任务 Agent缓解高质量执行trajectory长期稀缺这个瓶颈，给命令行agent补一条训练数据通道。链接

FAMA：failure-aware的meta-agentic框架（ACL） Agent让开源LLM在conversational tool-use benchmark里从自己的失败模式中学着矫正。链接

视频扩散模型从pretrain到deployment的系统化post-train流程 视频生成针对prompt敏感、时序退化等系统性gap，给一套包含RLHF/GRPO的完整训练框架。链接

LVLM幻觉缓解换位置：从decoding挪到prefill-time 多模态不再在decoding阶段动steering vector，改在prefill期介入。链接

CORAL：多语RAG需要adaptive retrieval loop（ACL） 检索检索空间不该固定为query/doc翻译或多语embedding，文化对齐查询要动态展开。链接

policy gradient里的「错reward」分类学 训练优化Princeton指出imperfect proxy reward不都是坏事，某些类型甚至对训练有帮助。链接

用this/that、这/那做probe测LLM是否习得具身认知 可解释性6400条母语者回应做跨语对照，看LLM能否从纯文本里学到空间指示与文化变体。链接