视频模型栽在组合编辑，MoE败在路由

今日概览

单点编辑已够用，组合指令却集体翻车：CoVEBench用9990项细粒度checklist拆解多点编辑，模型一旦同时改主体、动作、机位，就频繁漏改、破坏背景或引入瑕疵。
记忆该记什么，交给模型自己学——MemoPilot用多轮GRPO把「记忆更新」训练成可优化策略，冻结LLM不改权重就在对弈游戏上拿到领先Elo，只是尚未验证真实agent任务。
MoE的专家分工，败在路由这一步。STAR把路由重述成结构感知的子空间学习，用演化子空间对齐输入主结构，问题定位从expert容量挪到了router感知力。
给整条推理链的事实性上一个统计保证：用conformal方法把多步推理看成依赖图、实时校准整体不确定性，把幻觉控制从经验调参变成有覆盖率保证的推断。

重点关注

01 评测风格迁移、加物体都会了，模型却在「同时改三处」上集体翻车

文生视频编辑模型在单点任务上已经够用：换个风格、塞个物体、改个颜色，效果都不差。但真实用户很少这么提需求——一句prompt往往要同时改主体、改动作、换机位，还得把无关的背景和时序原样保住。CoVEBench就是冲着这种组合工作流来的：416条源视频、626条多点编辑指令，拆成9990个细粒度checklist项，再用多模态大模型（MLLM）逐条判分，而不是用一个笼统的全局指标盖过去。结果不乐观——模型在处理多个操作时频繁漏掉某些编辑、违反「保持不变」的约束，或者直接引入画面瑕疵。更细看会发现失败有先后：当主体、动作、机位被要求一起改时，最先崩的往往是动作和机位这类需要跨帧一致性的编辑——换个静态物体相对容易，但要让一个新动作贯穿整段时序、同时镜头还在运动，模型常常顾不过来，要么动作只在几帧里成立，要么一改机位就把主体的连贯性带塌了。对做视频编辑产品的人来说，这个benchmark的价值不在分数排名，而在它把失败拆开了看：是顾此失彼（改了主体忘了动作），还是连带破坏（改一处却把背景也搅乱了）。这两类失败对产品选型的指导完全不同——顾此失彼说明模型的指令解析容量不够，可以靠拆解指令、分步编辑来缓解；连带破坏则是模型对「哪些区域该锁住」没有概念，属于更底层的能力缺口，加再多prompt工程也救不回来。选型时拿这把尺子去量，比看demo里挑好的单点效果靠谱得多。

单点编辑已接近可用，组合式指令才是真实用户需求与产品差距所在CoVEBench用9990项细粒度checklist诊断失败模式，比全局FID类指标更能指导产品迭代区分「顾此失彼」（可靠分步编辑缓解）和「连带破坏」（底层能力缺口、prompt救不回）能直接决定选型与产品策略别只看demo里的单点效果，要测它在多点耦合编辑下从哪一步开始崩。

原文：CoVEBench: Can Video Editing Models Handle Complex Instructions?

02 Agent 记忆该写什么，能不能交给模型自己学？

长时运行的agent靠「每次交互后更新一段memory」来积累经验，这套做法现在很常见，但写什么、怎么写基本都是手工设计的prompt规则——本质上是人替agent决定该记住什么。MemoPilot把这一步换成了可优化的策略：用多轮GRPO（一种强化学习方法）直接训练「记忆更新」这个动作，让一个冻结的LLM在不改权重的情况下越用越准——也就是说，记忆更新从手写规则变成了一条可训练的策略。值得注意的是，验证场景是石头剪刀布和限注德州扑克这两个对弈游戏，Elo分数确实领先（德扑1762、石头剪刀布1590，超过DeepSeek-V3.2），但游戏环境的反馈结构干净、目标明确，离真实agent任务还有距离，能不能迁移到搜索、coding这类长程任务需要看后续工作。

关注点从「记忆有没有用」转向「谁来决定记什么」——记忆更新本身被当成可训练的策略冻结LLM不动权重就能在test-time变强，对不方便微调主模型的场景有参考价值当前结果只在对弈游戏上验证，迁移到真实agent任务前先保留判断

原文：From Player to Master: Enhancing Test-Time Learning of LLM Agents via Reinforcement Learning over Memory

03 模型架构 MoE的专家分工，败在路由这一步

MoE的路由器通常就是一层浅浅的线性投影，它做决定时其实并没有真正「看见」输入的结构，结果就是路由不稳定、专家分工形同虚设。STAR换了个角度：把路由重新表述成子空间学习问题，在原有可学习路由之外，加了一条用广义Hebbian算法(GHA)持续跟踪输入主结构的演化子空间，让路由决策直接对齐输入的主导方向。这样专家专精才有了稳定的依据。论文在合成数据、大规模语言和视觉任务上都报告了路由质量和下游性能的提升，另外可选的测试时子空间更新，在输入分布漂移时还能进一步增强鲁棒性。这篇的价值在于把问题定位点从expert容量挪到了router感知力——路由质量是专家分工的上游，值得训MoE的人记住。

MoE专家专精不成立，根因常在router对输入结构无感知，而非expert不够大STAR用演化子空间让路由对齐输入主结构，换来更稳定的分工测试时子空间更新提供了应对分布漂移的额外手段，但具体增益需看全文确认。

原文：STAR: Rethinking MoE Routing as Structure-Aware Subspace Learning

04 安全对齐给整条推理链的事实性上一个统计保证

控制大模型幻觉，现在大多靠经验调参——调温度、加提示、做后处理，但你说不清最后到底有多大把握。这篇换了个思路：把多步推理看成一张隐式的依赖图，每个中间结论对不对，结构上取决于它前面的结论，所以事实性的不确定性是顺着这张图传播的，而不是各步错误的简单相加。作者用conformal预测（一种能给出覆盖率保证的统计方法）在生成过程中实时算这张图的整体不确定性，到达阈值就停止往下推，从而给「这条推理链可信」上一个用户能指定的有效保证。和事后剪枝相比，边生成边校准的图在下游推理任务上准确率更高。对要把推理型LLM放进医疗、金融、法务这类高风险场景的人，意义在于它把幻觉控制从「调到看着还行」变成有覆盖率保证的推断——不过具体能省多少风险预算，还得看全文的实验细节和校准成本。

把多步推理的事实性不确定看成沿依赖图传播，而非各步错误累加，更贴近真实失败模式conformal方法给出用户可指定的覆盖率保证，幻觉控制从经验调参变成可量化的推断高风险场景值得关注，但校准开销和实际能压下多少错误率需看全文确认

原文：Inference-Time Conformal Reasoning with Valid Factuality Control for Large Language Models

也值得关注

让query参与状态演化本身 模型架构线性注意力里query一直只管读出、与状态演化解耦，Q-Delta把它拉进演化过程，是对KV关联范式的一次松绑。链接

照schema直接转的图，未必是GNN想要的图 模型架构关系数据库转成的图常常不适合做关系推理，这篇追问「什么样的图才是好图」，对做关系深度学习的人是建图环节的提醒。链接

encoder和decoder更新不对称，统一聚合会崩 训练优化医学分割里编解码器更新极不平衡，这篇按编解码结构差异分别处理联邦LoRA的聚合。链接

合成数据从拟真度改判精确满足结论 AI for Science不再比拼对真实分布的拟真度，而要求在无源数据下精确满足一个声明式分析结论，换了个评判维度。链接

八叉树缓存光泽材质辐射，奔实时渲染去 图像生成光泽/镜面材质的高频出射辐射一直难建，OctaOctree用八叉树组织neural radiosity缓存。链接