NVIDIA五模态压进一套权重

今日概览

  • NVIDIA把语言、图像、视频、音频、动作塞进一套权重:Cosmos 3用一套mixture-of-transformers赌「单模型通吃所有模态」,第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。
  • 同一个KV量化方法,prefill里没事、长解码里越错越离谱:KVarN指出误差会跨时间步累积,用方差归一化压住离群token-scale,2-bit拿下KV量化新SOTA,免标定、有vLLM实现。
  • 把上下文里临时学到的东西写回权重:「语言模型需要睡眠」撇开隐喻,机制是蒸馏加合成数据自演练;但「写什么」和「防遗忘」两个硬问题摘要没正面回答。
  • 采样预算从手调阈值变成可学习策略:把「采多少样」形式化成MDP,用RL训一个CPU上就能跑的小控制器,在「少采样还不掉点」上比强基线拿到更好折中。

重点关注

01 模型架构 NVIDIA把五种模态压进一套权重,赌的是「通吃」而非「拼装」

Physical AI这边一直有两条路:要么拼装多个专用模型(视觉语言模型负责理解、视频生成器负责模拟、world-action模型负责出动作),要么训一个统一骨干通吃所有模态。Cosmos 3明确押后者——用一套mixture-of-transformers(多专家变体的Transformer)把语言、图像、视频、音频、动作塞进同一套权重,摘要里直接说要「subsume」掉前面那几类各自为政的系统。从摘要能看出的取舍是:动作序列和视频、图像被当作同一类可生成的序列来处理,这对具身智能体(embodied agent)有道理——感知和动作共享一套世界表示,理论上能互相迁移。但统一也有代价,摘要没有展开哪些任务真因为共享表示而受益、哪些只是被勉强塞进同一框架,这部分得看全文的消融实验才能判断。值得记的是第三方背书:Artificial Analysis把它的后训练版评为最佳开源文生图和图生视频模型,RoboArena评为最佳策略模型——至少说明「通吃」没有在单项上明显掉队,而这正是统一架构最容易翻车的地方。代码、权重、合成数据集全部以OpenMDW开源许可放出,对想跟进Physical AI的团队是个能直接上手的基座。

Physical AI的架构路线在分化,Cosmos 3代表「单模型通吃所有模态」这一派,值得据此判断自己该押拼装还是统一第三方把它在文生图、图生视频、机器人策略三项都评为最佳开源,说明统一架构这次没在单项上明显妥协想验证「共享表示到底惠及哪些任务」得看全文消融,摘要只给了结论不给取舍。

02 推理加速 同一个量化方法,prefill里没事,长解码里越错越离谱

test-time scaling(推理时多花算力换更好答案)已经是公认有效的手段,但代价是长程解码时KV-cache越涨越大,显存成了新瓶颈。KV量化本来是解法,问题在于现有方法几乎都在prefill式的设定下评测——一次性压一段已知输入,误差是静态的。KVarN指出的真问题是:自回归解码里,量化误差会跨时间步累积,每一步的错误喂给下一步,根子在个别token的scale被估错。它的做法是先做一次Hadamard旋转,再在K、V矩阵的两个轴上各做一次方差归一化的双向缩放,专门压住这些离群的token-scale误差,从而把误差累积大幅削下来。在MATH500、AIME24、HumanEval这些生成式benchmark上,2-bit精度做到了KV量化的新SOTA,而且免标定、有vLLM实现。

评测设定会掩盖真问题——prefill下达标的KV量化,搬到长解码里可能误差越滚越大,部署前要按真实decode场景重测误差累积的根子是token-scale估错,不是普遍的精度不足,对症下药比一刀切降精度有效做长推理(reasoning/agent类)部署、卡在KV-cache显存上的团队值得试,2-bit、免标定、有vLLM实现,落地成本低。

03 训练优化 把上下文里临时学到的东西写回权重,难点从来不是想法

合上对话窗口,临时学到的知识就丢了——上下文里学得再好,也没法固化进长期参数持续积累,这是个真问题。这篇把人类记忆巩固的隐喻撇开看,机制其实是两件已有的事拼起来:一是Knowledge Seeding,把「小自己」的知识蒸馏进更大的网络换取容量(on-policy蒸馏加RL模仿学习的组合);二是用RL自动生成合成数据课程来自我演练。问题在于摘要回避了最硬的两点——它怎么决定哪些上下文知识值得写回权重、又靠什么避免改完旧能力塌掉(abstract只提了replay,但这是proof of concept,没给对照数字)。和已有的知识编辑、记忆适配方案相比到底多解决了哪一步,光看摘要下不了结论。

持续学习的真痛点是把in-context知识固化进参数,这个方向值得盯,但要盯机制不是隐喻核心是蒸馏加合成数据自演练的组合,新意需要看全文和对照实验才能确认「写什么」和「防遗忘」两个关键问题摘要没正面回答,做记忆/持续学习的团队等完整评测再判断。

04 推理 采样预算该不该交给一个学出来的小控制器?

决定「采到第几个样本就停」,过去要么靠人工设阈值,要么靠对答案分布的假设——两种都偏脆,换个模型或任务就得重调。这篇把「采多少样」形式化成一个马尔可夫决策过程(MDP,即把每一轮「停还是继续」建模成有状态的决策),用强化学习训一个轻量控制器,在正确率、延迟、算力之间联合权衡。controller只看最终答案的统计量,能在CPU上训练和部署,相比ASC、ESC等强基线在「少采样还不掉点」上拿到了更好的折中。值得关注的是这个小控制器的迁移性——换模型、换任务域后还能不能直接用,这点需要看全文确认。

把采样预算从手调阈值变成可学习策略,是给test-time scaling省钱的一条实路controller只依赖答案统计量、CPU即可训练部署,接入成本很低落地前重点验证跨模型/跨任务的迁移性,否则每个场景重训就削弱了性价比。
NVIDIA五模态压进一套权重

也值得关注

05
和KVarN同日的另一条KV-cache路线:不量化而是驱逐 推理加速发现少数value state量级异常大、不能轻易丢,反向印证了离群token-scale是长推理的共同痛点。链接
06
NVIDIA OmniDreams用实时生成式世界模型做自动驾驶闭环仿真 视频生成专攻重建式仿真器够不着的长尾场景。链接
07
世界模型与MLLM互补,与其问谁更强不如学会取舍 推理判断某个视觉rollout何时可信、何时该弃用。链接
08
OVO-S-Bench从连续第一视角流里做在线空间推理 评测分层基准,常需用到当前视野之外的证据。链接
09
VSTAT把视频理解的考点从「认出孤立瞬间」挪到「持续追踪实体与状态」 多模态直戳MLLM的薄弱环节。链接
10
用宽基线匹配当空间推理的测试床 多模态按视角位移和匹配粒度分层,逼MLLM处理几何与遮挡。链接
11
PaddleOCR-VL-1.6不盲目扩数据,而是定位上一代的薄弱区域精修 多模态做region-aware refinement。链接
12
Economy of Minds借哈耶克的去中心化协调让agent靠竞价自组织 Agent不靠中心控制涌现出更强的集体智能。链接
13
AUDITFLOW给财报审计搭可执行的符号环境 Agent让agent把事实链到分类概念、重算预期值再判定。链接
14
SynCred-Bench:AI已能生成带逼真文字和版式的图,催生「合成可信度」威胁 安全对齐一种新型视觉误导。链接

今日观察

今天有三篇落在同一个刻度上:test-time scaling该不该用已经不是问题,它太贵才是。KVarN量化KV-cache、Value-Aware eviction驱逐KV-cache,从内存这一侧两路下刀——一个把cache压到2-bit,一个把不重要的KV直接逐出;RL自适应采样那篇则从算力侧动手,让模型学着少采几个样。同一天里,长推理的成本被人从显存和采样两个完全不同的层各砍一刀,而且彼此并不知道对方在砍——这恰恰说明test-time scaling已经过了「证明有效」那一阶段,进入了「把它降到能上线」的工程化阶段。值得留意的是切口的分散:没有一个统一框架在统筹,而是显存、驱逐、采样各自为战,说明这场降本还在早期的多点试探,谁也没拿出能一锤定音的那一刀。

落到行动上:如果你已经在用长推理或reasoning模型扛业务,别再把KV量化、cache驱逐、采样预算当成三个独立选题分头评估——先量一遍自己的成本结构,看显存和采样各占多少,再决定今天这三刀该先上哪一刀,而不是看哪篇benchmark数字最漂亮就跟哪篇。