今日概览
- real-time AR 视频的瓶颈正在位移:Causal Forcing++ 把 frame-wise 蒸馏压到 1-2 步,RAVEN 直接对准 long rollout 的 history distribution mismatch 用 consistency-model GRPO 训进去
- SANA-WM 用混合线性注意力撑住分钟级世界模型:2.6B 参数、单卡 H100 原生生成 60 秒 720p,distilled+NVFP4 量化在 RTX 5090 上 34 秒出片
- 多模态长期记忆选型有数据了:MemLens 789 道多会话题对比长上下文 vs 记忆库,结论是单条路线都过不了 30%
- ATLAS 把「调工具还是走隐式推理」压成模型自学的 next-token 决策:不改架构、不加视觉监督,标准 SFT+RL 跑通模式切换
- 设计工具的分层生成卡点不在生成质量:纯合成分层数据训出的模型能超过专有素材,5 万样本是收益拐点
重点关注
01 视频生成 帧级两步采样跑通之后,real-time视频的瓶颈在哪
Causal Forcing++(2605.15141)把frame-wise 1-2 step这个更激进的setting做了出来——核心是causal consistency distillation(causal CD):用相邻时间步之间一次online teacher ODE当监督,省掉预计算和存储完整PF-ODE轨迹的开销。结果比SOTA的chunk-wise 4-step在VBench Quality上还高0.3,首帧延迟降一半,第二阶段训练成本省约4倍。表面看这是步数压缩的又一次进步,但同一天的RAVEN(2605.15190)选了完全不同的攻击面:在consistency model之上叠GRPO,目标直接对准「history distribution mismatch」——长序列rollout时,模型推理看到的是自己生成的历史帧,训练看到的是真实历史帧,越往后漂移越严重。把这两篇放在一起读,能看到一个值得注意的位移:当单步成本已经压到1-2步,real-time AR视频的瓶颈正在从sampling efficiency转向long rollout的训练-推理分布对齐。这本质是exposure bias在视频域的版本,RL思路(GRPO)开始被引进来扛这个问题。
02 视频生成 一分钟720p视频,2.6B参数能撑住吗
长视频生成的算力账一直算不过来——softmax attention的复杂度随帧数平方增长,做到分钟级就吃不消。SANA-WM的做法是把帧间用Gated DeltaNet这种线性注意力扛起长程依赖,帧内仍用softmax保留细节表达,组成混合架构。结果是2.6B参数就能在单卡H100上原生生成60秒720p视频,distilled版加NVFP4量化能在一张RTX 5090上34秒出片,吞吐比同类开源方案高36倍。camera control走双分支设计,配上从公开视频里提取metric-scale 6-DoF位姿的标注流水线,对标的是LingBot-World、HY-WorldPlay这类大厂闭源世界模型。213K视频片段、64张H100训15天——这是中小团队也够得着的工程预算。
原文:SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
03 评测 长上下文还是记忆库?多模态应用选型有数据了
做需要持续看用户图片/视频的应用,技术选型一直在两条路之间拉锯:堆长上下文(long-context LVLMs),还是上记忆库(memory-augmented agents)。MemLens用789道多模态多会话问题做了系统对比,结论挺直接:长上下文在短会话里靠直接视觉grounding表现好,但会话变长就掉;记忆库长度稳定,但存储时的压缩会丢视觉细节。多会话推理上两者都卡在30%以下——没有一条路单独能解决问题。论文指向的方向是混合架构:长上下文注意力加结构化的多模态检索。
原文:MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
04 多模态 把「调工具还是走隐式推理」变成模型自己的下一个token
ATLAS定义了一种「功能token」——在tokenizer里它就是普通词表项,可以通过next-token prediction生成,但每个token内部绑定了一个视觉操作。这样模型用标准的SFT和RL就能学会「什么时候触发视觉操作、什么时候继续文本推理」,不需要改架构,也不需要额外视觉监督。这一步刚好把过去两种做法的痛点都绕过去:agentic路线靠调外部工具或代码,在生产环境有明显的context-switching延迟;latent路线学隐式embedding,灵活但训练难、任务泛化也差。RL阶段功能token出现得太稀疏,作者加了LA-GRPO用辅助目标稳定梯度。对做visual agent或多模态推理的团队,这是把模式切换从外部调度内化为模型决策的一个值得参考的设计。
原文:ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both
05 图像生成 设计工具想用 AI 出图,卡点不在生成质量
主流文生图模型输出的是「压扁」的图像——前景、背景、文字纠缠在一张画布上,用户想改个按钮颜色、挪个标题位置都做不到。做 Figma、Canva 类设计工具的团队都知道这是落地最大的坎,但训练分层分解模型缺数据:专有素材(如 PrismLayersPro)拿不到,硬合成又结构不全。这篇论文换了个问法:纯合成的分层数据到底够不够用?结论是够——基于 CLD 框架构造 SynLayers 数据集,配合 VLM 生成文本监督和预测 bounding box,纯合成训练就能超过专有数据集,规模到 5 万样本后收益开始饱和。
原文:Does Synthetic Layered Design Data Benefit Layered Design Decomposition?

也值得关注
今日观察
Causal Forcing++ 和 RAVEN 同一天出现,攻击面完全不同,但指向的下一个卡点是同一个:当 sampling steps 从 chunk-wise 4-step 被压到 frame-wise 1-2 step,单步成本已经不再是 real-time AR 视频的主要矛盾,long rollout 下训练看到的是真实历史帧、推理看到的是自己生成的历史帧,这个 history distribution mismatch 才是接下来要扛的硬骨头。RAVEN 把这个 gap 直接命名出来并用 consistency-model GRPO 训进去;Causal Forcing++ 走更细的 frame-wise 蒸馏,把 chunk 粒度的误差累积压下去。这是两篇论文揭示的一个具体瓶颈位移——同样在做 video gen 的 SANA-WM 解决的是另一件事(架构层面的二次复杂度),不属于这条线。
对做 real-time 视频生成 / 交互式世界模型的团队,行动建议很具体:接下来的工程精力应该从「再压一步」转到「如何稳住长 rollout 的分布漂移」——回看自己的 inference 是否在 rollout 后段质量明显衰减,是否需要在训练阶段引入 self-generated history 或 RL-based 校正,比继续在 step count 上抠 0.x 秒延迟收益要大得多。