今日概览
- 单点编辑已够用,组合指令却集体翻车:CoVEBench用9990项细粒度checklist拆解多点编辑,模型一旦同时改主体、动作、机位,就频繁漏改、破坏背景或引入瑕疵。
- 记忆该记什么,交给模型自己学——MemoPilot用多轮GRPO把「记忆更新」训练成可优化策略,冻结LLM不改权重就在对弈游戏上拿到领先Elo,只是尚未验证真实agent任务。
- MoE的专家分工,败在路由这一步。STAR把路由重述成结构感知的子空间学习,用演化子空间对齐输入主结构,问题定位从expert容量挪到了router感知力。
- 给整条推理链的事实性上一个统计保证:用conformal方法把多步推理看成依赖图、实时校准整体不确定性,把幻觉控制从经验调参变成有覆盖率保证的推断。
重点关注
01 评测 风格迁移、加物体都会了,模型却在「同时改三处」上集体翻车
文生视频编辑模型在单点任务上已经够用:换个风格、塞个物体、改个颜色,效果都不差。但真实用户很少这么提需求——一句prompt往往要同时改主体、改动作、换机位,还得把无关的背景和时序原样保住。CoVEBench就是冲着这种组合工作流来的:416条源视频、626条多点编辑指令,拆成9990个细粒度checklist项,再用多模态大模型(MLLM)逐条判分,而不是用一个笼统的全局指标盖过去。结果不乐观——模型在处理多个操作时频繁漏掉某些编辑、违反「保持不变」的约束,或者直接引入画面瑕疵。更细看会发现失败有先后:当主体、动作、机位被要求一起改时,最先崩的往往是动作和机位这类需要跨帧一致性的编辑——换个静态物体相对容易,但要让一个新动作贯穿整段时序、同时镜头还在运动,模型常常顾不过来,要么动作只在几帧里成立,要么一改机位就把主体的连贯性带塌了。对做视频编辑产品的人来说,这个benchmark的价值不在分数排名,而在它把失败拆开了看:是顾此失彼(改了主体忘了动作),还是连带破坏(改一处却把背景也搅乱了)。这两类失败对产品选型的指导完全不同——顾此失彼说明模型的指令解析容量不够,可以靠拆解指令、分步编辑来缓解;连带破坏则是模型对「哪些区域该锁住」没有概念,属于更底层的能力缺口,加再多prompt工程也救不回来。选型时拿这把尺子去量,比看demo里挑好的单点效果靠谱得多。
原文:CoVEBench: Can Video Editing Models Handle Complex Instructions?
02 Agent 记忆该写什么,能不能交给模型自己学?
长时运行的agent靠「每次交互后更新一段memory」来积累经验,这套做法现在很常见,但写什么、怎么写基本都是手工设计的prompt规则——本质上是人替agent决定该记住什么。MemoPilot把这一步换成了可优化的策略:用多轮GRPO(一种强化学习方法)直接训练「记忆更新」这个动作,让一个冻结的LLM在不改权重的情况下越用越准——也就是说,记忆更新从手写规则变成了一条可训练的策略。值得注意的是,验证场景是石头剪刀布和限注德州扑克这两个对弈游戏,Elo分数确实领先(德扑1762、石头剪刀布1590,超过DeepSeek-V3.2),但游戏环境的反馈结构干净、目标明确,离真实agent任务还有距离,能不能迁移到搜索、coding这类长程任务需要看后续工作。
03 模型架构 MoE的专家分工,败在路由这一步
MoE的路由器通常就是一层浅浅的线性投影,它做决定时其实并没有真正「看见」输入的结构,结果就是路由不稳定、专家分工形同虚设。STAR换了个角度:把路由重新表述成子空间学习问题,在原有可学习路由之外,加了一条用广义Hebbian算法(GHA)持续跟踪输入主结构的演化子空间,让路由决策直接对齐输入的主导方向。这样专家专精才有了稳定的依据。论文在合成数据、大规模语言和视觉任务上都报告了路由质量和下游性能的提升,另外可选的测试时子空间更新,在输入分布漂移时还能进一步增强鲁棒性。这篇的价值在于把问题定位点从expert容量挪到了router感知力——路由质量是专家分工的上游,值得训MoE的人记住。
原文:STAR: Rethinking MoE Routing as Structure-Aware Subspace Learning
04 安全对齐 给整条推理链的事实性上一个统计保证
控制大模型幻觉,现在大多靠经验调参——调温度、加提示、做后处理,但你说不清最后到底有多大把握。这篇换了个思路:把多步推理看成一张隐式的依赖图,每个中间结论对不对,结构上取决于它前面的结论,所以事实性的不确定性是顺着这张图传播的,而不是各步错误的简单相加。作者用conformal预测(一种能给出覆盖率保证的统计方法)在生成过程中实时算这张图的整体不确定性,到达阈值就停止往下推,从而给「这条推理链可信」上一个用户能指定的有效保证。和事后剪枝相比,边生成边校准的图在下游推理任务上准确率更高。对要把推理型LLM放进医疗、金融、法务这类高风险场景的人,意义在于它把幻觉控制从「调到看着还行」变成有覆盖率保证的推断——不过具体能省多少风险预算,还得看全文的实验细节和校准成本。
原文:Inference-Time Conformal Reasoning with Valid Factuality Control for Large Language Models
