2.6B开源世界模型撑1分钟720p

今日概览

  • real-time AR 视频的瓶颈正在位移:Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步,RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去
  • SANA-WM 用混合线性注意力撑住分钟级世界模型:2.6B 参数、单卡 H100 原生生成 60 秒 720p,distilled+NVFP4 量化在 RTX 5090 上 34 秒出片
  • 多模态长期记忆选型有数据了:MemLens 789 道多会话题对比长上下文 vs 记忆库,结论是单条路线都过不了 30%
  • ATLAS 把「调工具还是走隐式推理」压成模型自学的 next-token 决策:不改架构、不加视觉监督,标准 SFT+RL 跑通模式切换
  • 设计工具的分层生成卡点不在生成质量:纯合成分层数据训出的模型能超过专有素材,5 万样本是收益拐点

重点关注

01 视频生成 帧级两步采样跑通之后,real-time视频的瓶颈在哪

Causal Forcing++(2605.15141)把frame-wise 1-2 step这个更激进的setting做了出来——核心是causal consistency distillation(causal CD):用相邻时间步之间一次online teacher ODE当监督,省掉预计算和存储完整PF-ODE轨迹的开销。结果比SOTA的chunk-wise 4-step在VBench Quality上还高0.3,首帧延迟降一半,第二阶段训练成本省约4倍。表面看这是步数压缩的又一次进步,但同一天的RAVEN(2605.15190)选了完全不同的攻击面:在consistency model之上叠GRPO,目标直接对准「history distribution mismatch」——长序列rollout时,模型推理看到的是自己生成的历史帧,训练看到的是真实历史帧,越往后漂移越严重。把这两篇放在一起读,能看到一个值得注意的位移:当单步成本已经压到1-2步,real-time AR视频的瓶颈正在从sampling efficiency转向long rollout的训练-推理分布对齐。这本质是exposure bias在视频域的版本,RL思路(GRPO)开始被引进来扛这个问题。

单步成本不再是real-time AR视频的主要矛盾,瓶颈正在位移到long rollout的分布对齐causal CD用一次online teacher ODE替代离线PF-ODE轨迹,是低延迟蒸馏值得复用的一招做交互式视频/世界模型的团队,光压步数的边际收益正在减少,该开始看exposure bias类方法了

02 视频生成 一分钟720p视频,2.6B参数能撑住吗

长视频生成的算力账一直算不过来——softmax attention的复杂度随帧数平方增长,做到分钟级就吃不消。SANA-WM的做法是把帧间用Gated DeltaNet这种线性注意力扛起长程依赖,帧内仍用softmax保留细节表达,组成混合架构。结果是2.6B参数就能在单卡H100上原生生成60秒720p视频,distilled版加NVFP4量化能在一张RTX 5090上34秒出片,吞吐比同类开源方案高36倍。camera control走双分支设计,配上从公开视频里提取metric-scale 6-DoF位姿的标注流水线,对标的是LingBot-World、HY-WorldPlay这类大厂闭源世界模型。213K视频片段、64张H100训15天——这是中小团队也够得着的工程预算。

Hybrid Linear Attention(帧间线性+帧内softmax)是长视频生成绕开二次复杂度的可行路径2.6B参数撑起一分钟720p生成,把分钟级世界模型的硬件门槛拉到单卡级别camera pose标注流水线和训练配方一起开源,对做具身/世界模型的团队有直接参考价值。

03 评测 长上下文还是记忆库?多模态应用选型有数据了

做需要持续看用户图片/视频的应用,技术选型一直在两条路之间拉锯:堆长上下文(long-context LVLMs),还是上记忆库(memory-augmented agents)。MemLens用789道多模态多会话问题做了系统对比,结论挺直接:长上下文在短会话里靠直接视觉grounding表现好,但会话变长就掉;记忆库长度稳定,但存储时的压缩会丢视觉细节。多会话推理上两者都卡在30%以下——没有一条路单独能解决问题。论文指向的方向是混合架构:长上下文注意力加结构化的多模态检索。

选型不是二选一,需要持续看图的应用最终大概率要混合架构记忆库的存储压缩会损失视觉保真度,这是产品上要权衡的隐藏成本多会话推理整体还在30%以下,长会话视觉应用现阶段别承诺太满。

04 多模态 把「调工具还是走隐式推理」变成模型自己的下一个token

ATLAS定义了一种「功能token」——在tokenizer里它就是普通词表项,可以通过next-token prediction生成,但每个token内部绑定了一个视觉操作。这样模型用标准的SFT和RL就能学会「什么时候触发视觉操作、什么时候继续文本推理」,不需要改架构,也不需要额外视觉监督。这一步刚好把过去两种做法的痛点都绕过去:agentic路线靠调外部工具或代码,在生产环境有明显的context-switching延迟;latent路线学隐式embedding,灵活但训练难、任务泛化也差。RL阶段功能token出现得太稀疏,作者加了LA-GRPO用辅助目标稳定梯度。对做visual agent或多模态推理的团队,这是把模式切换从外部调度内化为模型决策的一个值得参考的设计。

「调工具还是走隐式推理」被压缩成模型自学的next-token决策,省掉外部调度的延迟开销训练不改架构、不加视觉监督,标准SFT+RL就能跑通RL阶段功能token稀疏问题需要LA-GRPO这类辅助目标兜底,复现时要留意这一步。

05 图像生成 设计工具想用 AI 出图,卡点不在生成质量

主流文生图模型输出的是「压扁」的图像——前景、背景、文字纠缠在一张画布上,用户想改个按钮颜色、挪个标题位置都做不到。做 Figma、Canva 类设计工具的团队都知道这是落地最大的坎,但训练分层分解模型缺数据:专有素材(如 PrismLayersPro)拿不到,硬合成又结构不全。这篇论文换了个问法:纯合成的分层数据到底够不够用?结论是够——基于 CLD 框架构造 SynLayers 数据集,配合 VLM 生成文本监督和预测 bounding box,纯合成训练就能超过专有数据集,规模到 5 万样本后收益开始饱和。

设计工具的「AI 直出可编辑稿」能力,瓶颈从数据稀缺转成了合成 pipeline 的工程问题合成数据在分层任务上 5 万样本是个拐点,再堆量边际收益有限合成数据还能控制图层数量分布,避开真实数据集长尾不均的问题,对训练稳定性有用。
2.6B开源世界模型撑1分钟720p

也值得关注

06
PDI-Bench 给视频世界模型的几何一致性补上量化评测 评测长度和速度卷出来之后,几何保真度是下一个被卷的轴,跟今天三篇 video gen 形成评测互补。链接
07
PaSaMaster 自我演化的 agentic 文献检索系统 检索目标是兼顾 keyword 检索的可靠性和 LLM 的复杂意图理解,研究者向工具,做学术/咨询场景检索的人值得扫一眼。链接
08
Sat3DGen 把单张卫星图生成街景 3D 场景 图像生成主要工程价值是把几何保真和语义丰富度这两个传统 trade-off 拉到同一框架里。链接
09
VAE latent 实际分布是 thin spherical shell,欧氏直线 flow 会跑出壳外 模型架构用球面 flow matching 校正,latent diffusion 的一个隐藏几何 bug 被点出来。链接
10
T2I 多步推理 + 闭环验证 图像生成跟今天 layered design 一起暗示一个方向:图像生成正在从单步生成走向带中间结构化表示的多步流程。链接

今日观察

Causal Forcing++ 和 RAVEN 同一天出现,攻击面完全不同,但指向的下一个卡点是同一个:当 sampling steps 从 chunk-wise 4-step 被压到 frame-wise 1-2 step,单步成本已经不再是 real-time AR 视频的主要矛盾,long rollout 下训练看到的是真实历史帧、推理看到的是自己生成的历史帧,这个 history distribution mismatch 才是接下来要扛的硬骨头。RAVEN 把这个 gap 直接命名出来并用 consistency-model GRPO 训进去;Causal Forcing++ 走更细的 frame-wise 蒸馏,把 chunk 粒度的误差累积压下去。这是两篇论文揭示的一个具体瓶颈位移——同样在做 video gen 的 SANA-WM 解决的是另一件事(架构层面的二次复杂度),不属于这条线。

对做 real-time 视频生成 / 交互式世界模型的团队,行动建议很具体:接下来的工程精力应该从「再压一步」转到「如何稳住长 rollout 的分布漂移」——回看自己的 inference 是否在 rollout 后段质量明显衰减,是否需要在训练阶段引入 self-generated history 或 RL-based 校正,比继续在 step count 上抠 0.x 秒延迟收益要大得多。