400万游戏帧练渲染，技能内化胜过检索

今日概览

离散token是LLM的架构天花板而非优化目标，综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。
Agent技能用RL内化进参数比检索注入更强：SKILL0的渐进撤除课程在ALFWorld上提升9.7%，推理时每步上下文不到500 token。
3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据，微调后的模型在跨数据集泛化上明显领先。
视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力，异常检测等任务零样本泛化，通用能力不退化。

重点关注

01 模型架构 LLM的核心计算正在离开token空间

离散token是当前LLM的基本操作单元，但越来越多的证据表明，它同时也是能力天花板。这篇综述系统梳理了一个正在发生的迁移：模型内部的关键计算——推理、规划、记忆、多模态感知——正在从人类可读的token序列转向连续的latent space（潜在空间）。驱动这个迁移的不是某个单点突破，而是离散化本身的结构性限制：语言冗余导致信息密度低，token化造成压缩损失，自回归的逐token生成带来序列效率瓶颈。这些不是可以通过更好的tokenizer或更大的模型解决的问题，而是架构层面的天花板。综述从架构、表示、计算、优化四条技术线索追踪了这个趋势的演进，并展示了latent space在推理、规划、建模等七个能力维度上的进展。值得注意的是，这不只是学术界的探索——当Coconut（连续思维链）、latent reasoning等方向开始在大规模模型上验证，token空间作为默认计算基底的假设正在被动摇。对从业者而言，关键判断点在于：你当前的推理和训练框架是否仍然默认在token级别操作，这可能决定了系统能力的上限。

离散token的瓶颈不是优化问题而是架构天花板，latent space正成为LLM核心计算的替代基底推理、规划、记忆等能力在连续空间中展现出更好的扩展性选择推理/训练框架时需要评估其是否仍锁定在token-level操作上

原文：The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

02 Agent 技能靠检索注入，不如直接练进脑子里？

当前Agent扩展技能的主流做法本质上是RAG——检索技能描述，注入prompt，模型照着做。但检索有噪声，注入吃token，而且模型从未真正学会这些技能，只是在照本宣科。SKILL0问了一个更根本的问题：能不能用RL把技能直接内化进参数？它设计了一个渐进撤除课程——训练初期给完整技能上下文，随后动态评估每个技能文件对当前策略的帮助，逐步撤掉已经学会的部分，直到模型完全零样本运行。ALFWorld提升9.7%，Search-QA提升6.6%，推理时每步上下文不到500个token——这是fine-tuning vs RAG在agent领域的一次正面交锋，结果站在了内化这边。

技能内化将agent能力构建从「运行时检索」转向「训练时学习」，本质上是换了一种能力获取范式渐进撤除课程动态评估每个技能的帮助度，解决了直接去掉上下文训练就崩的问题推理时token开销大幅降低，对agent实际部署的成本控制有直接价值

原文：SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

03 视频生成训练生成式渲染，最好的数据集藏在游戏里

做逆渲染和正向渲染的人都知道，合成数据集和真实场景之间永远隔着一条domain gap。但这个团队的解法让人没想到：直接从3A游戏里抽数据。想想也合理——游戏引擎已经花了几十年解决复杂光照、动态天气、运动模糊这些问题，渲染质量早就超过了学术界的合成数据集。他们用一种双屏拼接采集方法，从游戏中提取了400万帧连续的720p画面，每帧同步包含RGB和5个G-buffer通道（法线、深度、材质等）。用这批数据微调的逆渲染模型在跨数据集泛化上明显优于现有方案，还能通过G-buffer引导做可控视频生成。更有意思的是他们还提出了一个基于VLM的评估协议，解决了真实场景下没有ground truth的评测难题。

3A游戏作为渲染数据源，绕过了合成数据集的domain gap问题400万帧同步RGB+G-buffer数据的规模和质量是学术合成数据集难以企及的数据策略的突破有时比模型创新更能推动领域进展

原文：Generative World Renderer

04 多模态视觉特征能不能按需「转向」？

做图像检索或异常检测时，你经常需要模型关注特定属性——比如关注纹理而不是形状，但现有的视觉编码器只给你「最显著」的特征，没有调控余地。用文本引导是个自然的想法，CLIP的做法是编码后再融合，代价是空间精度打折。这篇工作把融合提前了：在ViT编码器的中间层注入轻量级交叉注意力，让文本提示直接影响视觉特征的提取过程。结果是视觉表征变得「可转向」，在异常检测和个性化物体区分上做到了和专用方法持平或更好，同时通用视觉任务的基础能力没有退化。

早期融合（编码层内注入文本）比后期融合保留更多空间信息，这是关键设计选择异常检测和物体区分任务展现零样本泛化，说明可转向性不是靠任务微调换来的做检索、分割等需要语义可控视觉特征的团队值得跟进

原文：Steerable Visual Representations

也值得关注

在latent空间做跨模态交叉推理 多模态避免把视觉内容翻译成文本的信息损失。LatentUM

多个LLM agent自主探索、反思、协作解决开放性问题 Agent不再依赖硬编码的搜索规则。CORAL

用近似身份干扰项消除视觉编码器对背景依赖 图像生成让身份表征真正聚焦于对象本身。NearID

视频擦除不只是填补空白 视频生成当被移除对象有物理交互时，需要重新推理整个场景的因果链。VOID

自动驾驶VLA的空间感知与语义推理两难 机器人尝试在一个框架内统一两者。UniDriveVLA

用3D纹理做对抗攻击面 安全对齐比2D贴片更接近真实部署场景，对VLA模型的鲁棒性敲响警钟。Tex3D

用2D生成能力弥补3D数据稀缺 图像生成统一文本到2D和3D生成的基础模型。Omni123

基于图结构自动合成跨模态多跳推理数据 推理弥补现有多模态基准的单图局限。CRIT

单次前向传播处理任意分辨率图像 多模态让ViT在密集预测任务上不再受预训练分辨率约束。SPAR

用视觉谜语测试视觉推理 评测当图片只是线索而非答案时，现有模型的认知能力断崖式下降。RebusBench

今日观察

今天的latent space综述、LatentUM和SKILL0表面上分属不同子领域，但它们共同暴露了同一个结构性问题：显式中间表示在系统规模增大时，从信息载体退化为信息瓶颈。

综述论证的核心不是「latent space很有潜力」，而是离散token作为计算基底存在结构性上限——语言冗余、压缩损失、序列效率瓶颈，这些问题的根源在离散化本身，不可能通过更好的tokenizer消除。LatentUM在跨模态推理中绕过了「先把图像描述成文本再推理」的默认路径，直接在latent空间完成视觉与语言的交叉推理。SKILL0则把agent技能从「检索文档→注入prompt→模型照做」的RAG模式，转向「训练时内化进参数→推理时零样本调用」。

这三个方向同时出现不是巧合，因为它们面对的是同一类瓶颈：当模型需要处理的信息复杂度超过显式表示的承载能力时，中间转译层就成了损耗源。token承载不了推理所需的全部信息密度，文本描述承载不了视觉内容的空间细节，技能文档承载不了agent在复杂环境中的行为模式。而当模型能力足以直接在连续空间操作时，这些显式中间层就从「必要桥梁」退化为「不必要的信息漏斗」。

这并不意味着显式表示会消失——人类仍然需要可读的输出。但「先转成人类可读形式再计算」的默认假设正在被修正为「内部用连续空间计算，只在输入输出端口做离散化」。这个修正的方向是一致的：把显式表示从计算路径中移除，保留在接口层。

行动建议：审视你当前系统中的显式中间表示——token-level推理链、文本化的检索结果、prompt注入的工具说明。区分哪些是面向人类的可解释性接口（必须保留），哪些只是「因为我们一直这么做」的架构惯性。后者是最直接的优化空间，从推理成本到信息保真度都有改善余地。