双流MoE统一多模态,换装视频30倍提速

今日概览

  • Lance走双流MoE做原生统一多模态,理解和生成共享上下文但跑独立专家路径,ByteDance给不愿拼超大集群的团队一个新参照系。
  • FashionChameleon把人体视频换装从离线渲染推到交互:单件服装训练就能做多件实时切换,单卡23.8 FPS、比baseline快30到180倍。
  • Flash-GRPO把GRPO多步轨迹压成一步训,配iso-temporal grouping和temporal gradient rectification两个修正,14B视频对齐的算力门槛从「凑机器」挪到「调参数」。
  • Solvita给四个agent各挂一张可训练知识网络——底层LLM不动,靠任务反馈回灌RL更新权重,不需要fine-tune预算也能让agent越用越会。

重点关注

01 多模态 统一多模态模型,能不能不靠堆参数?

统一多模态模型现在主流有两种做法:scale到几百亿参数,或者以文图为主、把视频和编辑当附加任务。ByteDance的Lance走了第三条路——从头训一个轻量级原生统一模型,图像和视频的理解、生成、编辑都在同一个架构里跑。核心做法是双流MoE(专家混合):理解和生成各走各的专家路径,但共享同一份交错的多模态上下文序列;位置编码也做了模态感知的改造,用来缓解不同视觉token之间的相互干扰。这背后的工程取舍是:「共享上下文」保多任务语义连贯,「独立专家」避免理解和生成在一组权重上互相覆盖,容量花在区分能力路径而非堆深度——和scale参数路线相比,差异不在「更大」,而在「更结构化」。训练分阶段做,按能力目标调度数据,理解先打牢、生成和编辑后叠加,任务优先级被显式排过而不是丢给一组共享权重去硬扛。摘要里给出的结论是,在开源统一模型里图像和视频生成都明显领先,理解能力也没掉。对想自建统一多模态能力但拿不出超大集群的团队,开源+轻量级意味着可以在十亿级而非千亿级预算里复刻同一类架构,工程实验门槛被压到一个数量级以下。不过摘要没披露和闭源大模型的对比,所以这条路线到底能撑多高的上限,还要等社区复现和真实场景验证。

多任务协同训练是堆参数之外的统一多模态路线,对不想拼超大集群的团队提供一个新参照系双流MoE加模态感知位置编码让理解和生成共享上下文但走独立路径,是这套架构的关键工程取舍摘要未给出与闭源大模型的对比,能力上限要等社区复现后再判断

原文:Lance: Unified Multimodal Modeling by Multi-Task Synergy


02 视频生成 训练只见单件服装,部署时能边看边切换

人体视频定制的商业价值摆了很久——电商、内容创作都在等——但garment级别的细粒度控制一直只能跑离线渲染,每换一件衣服就要重新生成一遍,谈不上交互。FashionChameleon选了一条反直觉的训练路径:不收集多件服装的视频数据,只用单件服装训一个Teacher Model,通过让reference图和目标garment图错配,逼模型在单件训练里隐式学到换装时保持动作连贯。再叠加streaming distillation做流式输出,加一个training-free的KV cache调度处理推理期的中途切换,避免为多件场景重新训练。单卡GPU上23.8 FPS、比已有baseline快30到180倍是结果,但比起数字本身,更值得关注的是这把方向从batch渲染挪到了真正可交互的位置。

「训单件、控多件」靠reference和garment图错配实现隐式连贯学习,做服装外的其他物体级视频定制可以借鉴这套范式换装切换由training-free的KV cache调度完成,推理期工程化能解决的问题比通常想得多人体视频定制从离线渲染跨到interactive一档,做内容创作和电商工具的团队产品形态有重新设计的空间

原文:FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization


03 训练优化 多步轨迹折成一步,14B视频对齐的算力账被重写

视频扩散模型的GRPO对齐瓶颈从来不在算法选型——14B模型一次实验数百GPU天,这道工程财务壁垒决定哪些团队能开搞、哪些只能围观。已有省算力路线(sliding window子采样timestep)会显著牺牲稳定性,到不了全轨迹训练的质量。Flash-GRPO的赌注是把整条multi-step trajectory压成one-step policy optimization,配两个修正:iso-temporal grouping强制同一prompt在一致timestep上比较以消掉「timestep难度」造成的方差,temporal gradient rectification抵消不同timestep间梯度幅度的失真。论文报告1.3B到14B都稳定收敛、低算力预算下还超过全轨迹baseline——这是论文宣称的结论,独立复现是不是真站得住值得盯一下。如果站得住,做video alignment但拿不出几百GPU天的团队,门槛会从「凑不凑得到机器」挪到「调不调得动」。

video alignment能不能开搞的分水岭是单次实验算力账而非算法选型one-step替代full trajectory的两个核心修正(iso-temporal grouping、temporal gradient rectification)能不能在复现里稳住,决定这条路是不是真的可用「低算力下质量超过全轨迹」对照的也是低算力baseline,跨预算结论需要看全文

原文:Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization


04 代码智能 应用层没fine-tune预算,agent还能怎么持续学习

让agent越用越会做题,最直接的路径是给底层LLM做fine-tune,但应用层团队多半拿不到这个算力预算。Solvita给了另一条路:Planner、Solver、Oracle、Hacker四个agent各挂一张可训练的图结构知识网络,任务跑完后pass/fail、测试覆盖质量、Hacker找到的反例都被回灌成RL信号去更新这些网络权重——底层LLM完全不动。本质上是把「经验积累」从prompt上下文挪到了一个独立的可训练状态里,越跑越懂得把哪类问题路由给哪条解题策略。论文在CodeContests、APPS等四个benchmark上拿到了SOTA,但能不能搬到自己的任务分布上,关键看反馈信号够不够密——竞赛题的pass/fail是强可验证信号,业务场景大多没有。

不动底层LLM权重也能让agent持续学习,关键是把经验编码进一组独立可训练的小网络这种「外挂记忆+RL更新」思路对没有fine-tune预算的应用层团队是可借鉴的工程模式落地的核心约束是反馈信号密度,竞赛题的pass/fail是强信号,业务场景多半拿不到这种强可验证反馈

原文:Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

双流MoE统一多模态,换装视频30倍提速

也值得关注

05
RLVR探索效率靠策略引导而非暴力增rollout 训练优化让模型走出已采样轨迹的舒适区,比改优化目标的方案对效果有更细的控制。链接
06
game world model让NPC从背景像素变成可响应玩家动作的对象 视频生成把生成器从视频渲染器拉向真模拟引擎。链接
07
WorldAct把Marble这类系统的整块3D世界打散成对象级scene 多模态让world generation的输出能进入下游内容流水线,不再是一次性静态资产。链接
08
GUI agent的「点附近就行」容错假设在精确几何任务里崩盘 Agent用点级精度方法处理continuous canvas上的几何依赖。链接
09
VLM直接出稠密深度,绕开纯文本监督的精度天花板 多模态不靠外部视觉模型蒸馏,避免误差积累。链接
10
用SAE在视觉表征侧做CLIP鲁棒微调 可解释性避开text-guidance的算力开销,可解释性当副产品送出。链接
11
StableVLA不加额外训练数据,从结构层让VLA对未见视觉扰动鲁棒 机器人训练集没覆盖的扰动里VLA会掉,这条思路绕开了数据扩张。链接
12
端侧个人agent的记忆构建从堆容量转向偏好对齐筛选 检索给内存有限场景一个具体的工程模式。链接
13
TEDBench填上蛋白拓扑分类的大规模无冗余benchmark缺口 AI for Science配套预训练让模型可扩展。链接
14
「暴露模型局限」对终端用户信任校准的预注册激励研究 安全对齐XAI设计里少有的硬数据。链接

今日观察

服装视频、游戏NPC、3D资产是三个完全不重叠的问题域,但FashionChameleon、ReactiveGWM、WorldAct分别在各自的域里打的是同一个新瓶颈:生成模型的输出从「静态可看」挪向「激活后可交互」。FashionChameleon把视频里的服装变成可单独换掉的对象,ReactiveGWM让NPC响应玩家动作而不是当背景像素,WorldAct把生成出的整块3D世界打散成可编辑的对象级scene。背后是同一个判断:生成质量这条赛道已经卷到边际收益递减,下一段差异化在于「生成完了能怎么改、能怎么动」。给做AI内容工具的团队一个具体动作:把交互性从功能清单挪到产品架构的一等公民位置,比单纯堆生成质量更划得来——下个迭代评审时盘一下,你的输出格式给下游留没留可编辑、可激活的钩子。