今日概览
- Lance走双流MoE做原生统一多模态,理解和生成共享上下文但跑独立专家路径,ByteDance给不愿拼超大集群的团队一个新参照系。
- FashionChameleon把人体视频换装从离线渲染推到交互:单件服装训练就能做多件实时切换,单卡23.8 FPS、比baseline快30到180倍。
- Flash-GRPO把GRPO多步轨迹压成一步训,配iso-temporal grouping和temporal gradient rectification两个修正,14B视频对齐的算力门槛从「凑机器」挪到「调参数」。
- Solvita给四个agent各挂一张可训练知识网络——底层LLM不动,靠任务反馈回灌RL更新权重,不需要fine-tune预算也能让agent越用越会。
重点关注
01 多模态 统一多模态模型,能不能不靠堆参数?
统一多模态模型现在主流有两种做法:scale到几百亿参数,或者以文图为主、把视频和编辑当附加任务。ByteDance的Lance走了第三条路——从头训一个轻量级原生统一模型,图像和视频的理解、生成、编辑都在同一个架构里跑。核心做法是双流MoE(专家混合):理解和生成各走各的专家路径,但共享同一份交错的多模态上下文序列;位置编码也做了模态感知的改造,用来缓解不同视觉token之间的相互干扰。这背后的工程取舍是:「共享上下文」保多任务语义连贯,「独立专家」避免理解和生成在一组权重上互相覆盖,容量花在区分能力路径而非堆深度——和scale参数路线相比,差异不在「更大」,而在「更结构化」。训练分阶段做,按能力目标调度数据,理解先打牢、生成和编辑后叠加,任务优先级被显式排过而不是丢给一组共享权重去硬扛。摘要里给出的结论是,在开源统一模型里图像和视频生成都明显领先,理解能力也没掉。对想自建统一多模态能力但拿不出超大集群的团队,开源+轻量级意味着可以在十亿级而非千亿级预算里复刻同一类架构,工程实验门槛被压到一个数量级以下。不过摘要没披露和闭源大模型的对比,所以这条路线到底能撑多高的上限,还要等社区复现和真实场景验证。
原文:Lance: Unified Multimodal Modeling by Multi-Task Synergy
02 视频生成 训练只见单件服装,部署时能边看边切换
人体视频定制的商业价值摆了很久——电商、内容创作都在等——但garment级别的细粒度控制一直只能跑离线渲染,每换一件衣服就要重新生成一遍,谈不上交互。FashionChameleon选了一条反直觉的训练路径:不收集多件服装的视频数据,只用单件服装训一个Teacher Model,通过让reference图和目标garment图错配,逼模型在单件训练里隐式学到换装时保持动作连贯。再叠加streaming distillation做流式输出,加一个training-free的KV cache调度处理推理期的中途切换,避免为多件场景重新训练。单卡GPU上23.8 FPS、比已有baseline快30到180倍是结果,但比起数字本身,更值得关注的是这把方向从batch渲染挪到了真正可交互的位置。
原文:FashionChameleon: Towards Real-Time and Interactive Human-Garment Video Customization
03 训练优化 多步轨迹折成一步,14B视频对齐的算力账被重写
视频扩散模型的GRPO对齐瓶颈从来不在算法选型——14B模型一次实验数百GPU天,这道工程财务壁垒决定哪些团队能开搞、哪些只能围观。已有省算力路线(sliding window子采样timestep)会显著牺牲稳定性,到不了全轨迹训练的质量。Flash-GRPO的赌注是把整条multi-step trajectory压成one-step policy optimization,配两个修正:iso-temporal grouping强制同一prompt在一致timestep上比较以消掉「timestep难度」造成的方差,temporal gradient rectification抵消不同timestep间梯度幅度的失真。论文报告1.3B到14B都稳定收敛、低算力预算下还超过全轨迹baseline——这是论文宣称的结论,独立复现是不是真站得住值得盯一下。如果站得住,做video alignment但拿不出几百GPU天的团队,门槛会从「凑不凑得到机器」挪到「调不调得动」。
原文:Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization
04 代码智能 应用层没fine-tune预算,agent还能怎么持续学习
让agent越用越会做题,最直接的路径是给底层LLM做fine-tune,但应用层团队多半拿不到这个算力预算。Solvita给了另一条路:Planner、Solver、Oracle、Hacker四个agent各挂一张可训练的图结构知识网络,任务跑完后pass/fail、测试覆盖质量、Hacker找到的反例都被回灌成RL信号去更新这些网络权重——底层LLM完全不动。本质上是把「经验积累」从prompt上下文挪到了一个独立的可训练状态里,越跑越懂得把哪类问题路由给哪条解题策略。论文在CodeContests、APPS等四个benchmark上拿到了SOTA,但能不能搬到自己的任务分布上,关键看反馈信号够不够密——竞赛题的pass/fail是强可验证信号,业务场景大多没有。
原文:Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution

也值得关注
今日观察
服装视频、游戏NPC、3D资产是三个完全不重叠的问题域,但FashionChameleon、ReactiveGWM、WorldAct分别在各自的域里打的是同一个新瓶颈:生成模型的输出从「静态可看」挪向「激活后可交互」。FashionChameleon把视频里的服装变成可单独换掉的对象,ReactiveGWM让NPC响应玩家动作而不是当背景像素,WorldAct把生成出的整块3D世界打散成可编辑的对象级scene。背后是同一个判断:生成质量这条赛道已经卷到边际收益递减,下一段差异化在于「生成完了能怎么改、能怎么动」。给做AI内容工具的团队一个具体动作:把交互性从功能清单挪到产品架构的一等公民位置,比单纯堆生成质量更划得来——下个迭代评审时盘一下,你的输出格式给下游留没留可编辑、可激活的钩子。