今日概览
- NVIDIA把语言、图像、视频、音频、动作塞进一套权重:Cosmos 3用一套mixture-of-transformers赌「单模型通吃所有模态」,第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。
- 同一个KV量化方法,prefill里没事、长解码里越错越离谱:KVarN指出误差会跨时间步累积,用方差归一化压住离群token-scale,2-bit拿下KV量化新SOTA,免标定、有vLLM实现。
- 把上下文里临时学到的东西写回权重:「语言模型需要睡眠」撇开隐喻,机制是蒸馏加合成数据自演练;但「写什么」和「防遗忘」两个硬问题摘要没正面回答。
- 采样预算从手调阈值变成可学习策略:把「采多少样」形式化成MDP,用RL训一个CPU上就能跑的小控制器,在「少采样还不掉点」上比强基线拿到更好折中。
重点关注
01 模型架构 NVIDIA把五种模态压进一套权重,赌的是「通吃」而非「拼装」
Physical AI这边一直有两条路:要么拼装多个专用模型(视觉语言模型负责理解、视频生成器负责模拟、world-action模型负责出动作),要么训一个统一骨干通吃所有模态。Cosmos 3明确押后者——用一套mixture-of-transformers(多专家变体的Transformer)把语言、图像、视频、音频、动作塞进同一套权重,摘要里直接说要「subsume」掉前面那几类各自为政的系统。从摘要能看出的取舍是:动作序列和视频、图像被当作同一类可生成的序列来处理,这对具身智能体(embodied agent)有道理——感知和动作共享一套世界表示,理论上能互相迁移。但统一也有代价,摘要没有展开哪些任务真因为共享表示而受益、哪些只是被勉强塞进同一框架,这部分得看全文的消融实验才能判断。值得记的是第三方背书:Artificial Analysis把它的后训练版评为最佳开源文生图和图生视频模型,RoboArena评为最佳策略模型——至少说明「通吃」没有在单项上明显掉队,而这正是统一架构最容易翻车的地方。代码、权重、合成数据集全部以OpenMDW开源许可放出,对想跟进Physical AI的团队是个能直接上手的基座。
原文:Cosmos 3: Omnimodal World Models for Physical AI
02 推理加速 同一个量化方法,prefill里没事,长解码里越错越离谱
test-time scaling(推理时多花算力换更好答案)已经是公认有效的手段,但代价是长程解码时KV-cache越涨越大,显存成了新瓶颈。KV量化本来是解法,问题在于现有方法几乎都在prefill式的设定下评测——一次性压一段已知输入,误差是静态的。KVarN指出的真问题是:自回归解码里,量化误差会跨时间步累积,每一步的错误喂给下一步,根子在个别token的scale被估错。它的做法是先做一次Hadamard旋转,再在K、V矩阵的两个轴上各做一次方差归一化的双向缩放,专门压住这些离群的token-scale误差,从而把误差累积大幅削下来。在MATH500、AIME24、HumanEval这些生成式benchmark上,2-bit精度做到了KV量化的新SOTA,而且免标定、有vLLM实现。
原文:KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks
03 训练优化 把上下文里临时学到的东西写回权重,难点从来不是想法
合上对话窗口,临时学到的知识就丢了——上下文里学得再好,也没法固化进长期参数持续积累,这是个真问题。这篇把人类记忆巩固的隐喻撇开看,机制其实是两件已有的事拼起来:一是Knowledge Seeding,把「小自己」的知识蒸馏进更大的网络换取容量(on-policy蒸馏加RL模仿学习的组合);二是用RL自动生成合成数据课程来自我演练。问题在于摘要回避了最硬的两点——它怎么决定哪些上下文知识值得写回权重、又靠什么避免改完旧能力塌掉(abstract只提了replay,但这是proof of concept,没给对照数字)。和已有的知识编辑、记忆适配方案相比到底多解决了哪一步,光看摘要下不了结论。
原文:Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories
04 推理 采样预算该不该交给一个学出来的小控制器?
决定「采到第几个样本就停」,过去要么靠人工设阈值,要么靠对答案分布的假设——两种都偏脆,换个模型或任务就得重调。这篇把「采多少样」形式化成一个马尔可夫决策过程(MDP,即把每一轮「停还是继续」建模成有状态的决策),用强化学习训一个轻量控制器,在正确率、延迟、算力之间联合权衡。controller只看最终答案的统计量,能在CPU上训练和部署,相比ASC、ESC等强基线在「少采样还不掉点」上拿到了更好的折中。值得关注的是这个小控制器的迁移性——换模型、换任务域后还能不能直接用,这点需要看全文确认。
原文:Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

也值得关注
今日观察
今天有三篇落在同一个刻度上:test-time scaling该不该用已经不是问题,它太贵才是。KVarN量化KV-cache、Value-Aware eviction驱逐KV-cache,从内存这一侧两路下刀——一个把cache压到2-bit,一个把不重要的KV直接逐出;RL自适应采样那篇则从算力侧动手,让模型学着少采几个样。同一天里,长推理的成本被人从显存和采样两个完全不同的层各砍一刀,而且彼此并不知道对方在砍——这恰恰说明test-time scaling已经过了「证明有效」那一阶段,进入了「把它降到能上线」的工程化阶段。值得留意的是切口的分散:没有一个统一框架在统筹,而是显存、驱逐、采样各自为战,说明这场降本还在早期的多点试探,谁也没拿出能一锤定音的那一刀。
落到行动上:如果你已经在用长推理或reasoning模型扛业务,别再把KV量化、cache驱逐、采样预算当成三个独立选题分头评估——先量一遍自己的成本结构,看显存和采样各占多少,再决定今天这三刀该先上哪一刀,而不是看哪篇benchmark数字最漂亮就跟哪篇。