NVIDIA五模态压进一套权重

今日概览

NVIDIA把语言、图像、视频、音频、动作塞进一套权重：Cosmos 3用一套mixture-of-transformers赌「单模型通吃所有模态」，第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。
同一个KV量化方法，prefill里没事、长解码里越错越离谱：KVarN指出误差会跨时间步累积，用方差归一化压住离群token-scale，2-bit拿下KV量化新SOTA，免标定、有vLLM实现。
把上下文里临时学到的东西写回权重：「语言模型需要睡眠」撇开隐喻，机制是蒸馏加合成数据自演练；但「写什么」和「防遗忘」两个硬问题摘要没正面回答。
采样预算从手调阈值变成可学习策略：把「采多少样」形式化成MDP，用RL训一个CPU上就能跑的小控制器，在「少采样还不掉点」上比强基线拿到更好折中。

重点关注

01 模型架构 NVIDIA把五种模态压进一套权重，赌的是「通吃」而非「拼装」

Physical AI这边一直有两条路：要么拼装多个专用模型（视觉语言模型负责理解、视频生成器负责模拟、world-action模型负责出动作），要么训一个统一骨干通吃所有模态。Cosmos 3明确押后者——用一套mixture-of-transformers（多专家变体的Transformer）把语言、图像、视频、音频、动作塞进同一套权重，摘要里直接说要「subsume」掉前面那几类各自为政的系统。从摘要能看出的取舍是：动作序列和视频、图像被当作同一类可生成的序列来处理，这对具身智能体（embodied agent）有道理——感知和动作共享一套世界表示，理论上能互相迁移。但统一也有代价，摘要没有展开哪些任务真因为共享表示而受益、哪些只是被勉强塞进同一框架，这部分得看全文的消融实验才能判断。值得记的是第三方背书：Artificial Analysis把它的后训练版评为最佳开源文生图和图生视频模型，RoboArena评为最佳策略模型——至少说明「通吃」没有在单项上明显掉队，而这正是统一架构最容易翻车的地方。代码、权重、合成数据集全部以OpenMDW开源许可放出，对想跟进Physical AI的团队是个能直接上手的基座。

Physical AI的架构路线在分化，Cosmos 3代表「单模型通吃所有模态」这一派，值得据此判断自己该押拼装还是统一第三方把它在文生图、图生视频、机器人策略三项都评为最佳开源，说明统一架构这次没在单项上明显妥协想验证「共享表示到底惠及哪些任务」得看全文消融，摘要只给了结论不给取舍。

原文：Cosmos 3: Omnimodal World Models for Physical AI

02 推理加速同一个量化方法，prefill里没事，长解码里越错越离谱

test-time scaling（推理时多花算力换更好答案）已经是公认有效的手段，但代价是长程解码时KV-cache越涨越大，显存成了新瓶颈。KV量化本来是解法，问题在于现有方法几乎都在prefill式的设定下评测——一次性压一段已知输入，误差是静态的。KVarN指出的真问题是：自回归解码里，量化误差会跨时间步累积，每一步的错误喂给下一步，根子在个别token的scale被估错。它的做法是先做一次Hadamard旋转，再在K、V矩阵的两个轴上各做一次方差归一化的双向缩放，专门压住这些离群的token-scale误差，从而把误差累积大幅削下来。在MATH500、AIME24、HumanEval这些生成式benchmark上，2-bit精度做到了KV量化的新SOTA，而且免标定、有vLLM实现。

评测设定会掩盖真问题——prefill下达标的KV量化，搬到长解码里可能误差越滚越大，部署前要按真实decode场景重测误差累积的根子是token-scale估错，不是普遍的精度不足，对症下药比一刀切降精度有效做长推理（reasoning/agent类）部署、卡在KV-cache显存上的团队值得试，2-bit、免标定、有vLLM实现，落地成本低。

原文：KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks

03 训练优化把上下文里临时学到的东西写回权重，难点从来不是想法

合上对话窗口，临时学到的知识就丢了——上下文里学得再好，也没法固化进长期参数持续积累，这是个真问题。这篇把人类记忆巩固的隐喻撇开看，机制其实是两件已有的事拼起来：一是Knowledge Seeding，把「小自己」的知识蒸馏进更大的网络换取容量（on-policy蒸馏加RL模仿学习的组合）；二是用RL自动生成合成数据课程来自我演练。问题在于摘要回避了最硬的两点——它怎么决定哪些上下文知识值得写回权重、又靠什么避免改完旧能力塌掉（abstract只提了replay，但这是proof of concept，没给对照数字）。和已有的知识编辑、记忆适配方案相比到底多解决了哪一步，光看摘要下不了结论。

持续学习的真痛点是把in-context知识固化进参数，这个方向值得盯，但要盯机制不是隐喻核心是蒸馏加合成数据自演练的组合，新意需要看全文和对照实验才能确认「写什么」和「防遗忘」两个关键问题摘要没正面回答，做记忆/持续学习的团队等完整评测再判断。

原文：Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories

04 推理采样预算该不该交给一个学出来的小控制器？

决定「采到第几个样本就停」，过去要么靠人工设阈值，要么靠对答案分布的假设——两种都偏脆，换个模型或任务就得重调。这篇把「采多少样」形式化成一个马尔可夫决策过程（MDP，即把每一轮「停还是继续」建模成有状态的决策），用强化学习训一个轻量控制器，在正确率、延迟、算力之间联合权衡。controller只看最终答案的统计量，能在CPU上训练和部署，相比ASC、ESC等强基线在「少采样还不掉点」上拿到了更好的折中。值得关注的是这个小控制器的迁移性——换模型、换任务域后还能不能直接用，这点需要看全文确认。

把采样预算从手调阈值变成可学习策略，是给test-time scaling省钱的一条实路controller只依赖答案统计量、CPU即可训练部署，接入成本很低落地前重点验证跨模型/跨任务的迁移性，否则每个场景重训就削弱了性价比。

原文：Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

也值得关注

和KVarN同日的另一条KV-cache路线：不量化而是驱逐 推理加速发现少数value state量级异常大、不能轻易丢，反向印证了离群token-scale是长推理的共同痛点。链接

NVIDIA OmniDreams用实时生成式世界模型做自动驾驶闭环仿真 视频生成专攻重建式仿真器够不着的长尾场景。链接

世界模型与MLLM互补，与其问谁更强不如学会取舍 推理判断某个视觉rollout何时可信、何时该弃用。链接

OVO-S-Bench从连续第一视角流里做在线空间推理 评测分层基准，常需用到当前视野之外的证据。链接

VSTAT把视频理解的考点从「认出孤立瞬间」挪到「持续追踪实体与状态」 多模态直戳MLLM的薄弱环节。链接

用宽基线匹配当空间推理的测试床 多模态按视角位移和匹配粒度分层，逼MLLM处理几何与遮挡。链接

PaddleOCR-VL-1.6不盲目扩数据，而是定位上一代的薄弱区域精修 多模态做region-aware refinement。链接

Economy of Minds借哈耶克的去中心化协调让agent靠竞价自组织 Agent不靠中心控制涌现出更强的集体智能。链接

AUDITFLOW给财报审计搭可执行的符号环境 Agent让agent把事实链到分类概念、重算预期值再判定。链接

SynCred-Bench：AI已能生成带逼真文字和版式的图，催生「合成可信度」威胁 安全对齐一种新型视觉误导。链接

今日观察

今天有三篇落在同一个刻度上：test-time scaling该不该用已经不是问题，它太贵才是。KVarN量化KV-cache、Value-Aware eviction驱逐KV-cache，从内存这一侧两路下刀——一个把cache压到2-bit，一个把不重要的KV直接逐出；RL自适应采样那篇则从算力侧动手，让模型学着少采几个样。同一天里，长推理的成本被人从显存和采样两个完全不同的层各砍一刀，而且彼此并不知道对方在砍——这恰恰说明test-time scaling已经过了「证明有效」那一阶段，进入了「把它降到能上线」的工程化阶段。值得留意的是切口的分散：没有一个统一框架在统筹，而是显存、驱逐、采样各自为战，说明这场降本还在早期的多点试探，谁也没拿出能一锤定音的那一刀。

落到行动上：如果你已经在用长推理或reasoning模型扛业务，别再把KV量化、cache驱逐、采样预算当成三个独立选题分头评估——先量一遍自己的成本结构，看显存和采样各占多少，再决定今天这三刀该先上哪一刀，而不是看哪篇benchmark数字最漂亮就跟哪篇。