视觉模型开始重新设计自己的输出方式

今日概览

VLM画框为什么这么慢？ LocateAnything发现问题出在「一个一个吐坐标」，干脆让模型一步并行吐出整个框，又快又准，HF热度当天冲到91
一个embedding模型，把视频、音频、图、文都装进同一个空间：Google的Gemini Embedding 2在检索、跨模态、代码多个榜单上一并刷到SOTA
空间基础模型号称什么都能干，但SpatialBench把41个模型拉出来一测，发现没一个是全能选手，而且数据质量比堆规模更重要
扩散模型预测什么目标，不是随便选的：JLT用一个130M小模型证明，在潜空间里「预测干净图」比「预测速度」几何上更占便宜

重点关注

01 多模态让模型画检测框，最慢的居然是「写坐标」这一步

现在的视觉语言模型做目标检测，普遍把一个框拆成「左上角x、左上角y、宽、高」这么几个数字，然后像写文章一样一个token一个token地往外蹦。问题是框这个东西本来是个整体——四个角是强相关的几何结构，可模型却被迫拆开了、还得严格按顺序生成，既慢又容易丢掉框内部的几何一致性。LocateAnything换了个decode方式：把一个框（或一个点）当成一个「原子」，一步并行解出来，不再逐字写坐标。配上一个能造1.38亿训练样本的数据引擎，它在速度和高精度定位上同时往前推了一截——decode吞吐明显更高，高IoU下的定位质量还更好。对做检测、grounding、需要VLM精确指物的产品来说，这是个把延迟和精度一起改善的实在路子。出自NVIDIA团队（Jan Kautz、Andrew Tao等）。

逐token吐坐标是VLM检测被忽视的速度瓶颈把框当原子单元一步并行解出，吞吐和精度可以兼得1.38亿样本的数据引擎是这套方法能work的另一半

原文：LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

02 检索不想为每种模态维护一个检索模型，怎么办

做RAG、推荐、搜索的人都知道这个痛：文本有文本的embedding模型，图像有图像的，视频音频又是另一套，跨模态检索还得拼来拼去。Google这次直接给出一个「全都要」的方案——Gemini Embedding 2把视频、音频、图像、文本塞进同一个表示空间，而且支持任意交错的混合输入。它靠的是大规模对比学习加多任务多阶段训练，结果在好几个关键榜单上一并刷到SOTA：图文检索、视频检索、多语言文本、代码检索全拿下，超过了那些各自专门训练的模型。更省心的是它的零样本表现——从天文、生物到美食、艺术这些冷门领域开箱就能用。对正在搭检索或推荐系统的团队，这意味着可能用一个模型就把多模态那摊事统一了。

一个模型覆盖视频/音频/图/文的统一embedding空间，省掉多套模型的维护成本多个检索榜单同时SOTA，且支持交错混合输入冷门垂直领域零样本可用，适合直接接进RAG/搜索/推荐

原文：Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini

03 评测空间基础模型号称全能，真把它们摆一起测呢

这两年「空间基础模型」很火——重建、深度、位姿、3D理解都想用一个模型搞定。但大家都是在自己设计或训练的那个领域里报成绩，换个视角、换个场景、换个输入密度就没人测了，所谓的「通用」其实没被真正检验过。SpatialBench把这事补上了：19个数据集、546个场景、5个空间领域，用确定性采样把41个模型、6种范式拉到一起做横评。结论挺清醒——现在没有哪个模型是真正的全能选手。几个有用的发现：全上下文注意力精度最高，但要处理长序列还得靠有界内存的策略;在具身和第一人称这类硬任务上，严格的领域对齐和高数据质量，远比单纯把数据集做大更管用。团队还顺手放出了一个大规模数据集DA-Next-5M和一个强基线DA-Next。对在选型空间模型、或者在做具身/3D的人，这是张值得参考的全景地图。

空间基础模型目前没有全能选手，跨视角/跨场景的泛化是真实短板具身任务里领域对齐+数据质量比扩大数据集更关键DA-Next-5M数据集和DA-Next基线可直接拿来用

原文：SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

04 图像生成扩散模型「预测什么」，原来不是随便挑的

训扩散/flow模型时有个看似无所谓的选择：让模型预测「干净的原图」，还是预测「噪声」或「速度」？数学上这几个量在固定时刻是能线性互换的，所以很多人当成等价的参数化随便选。JLT这篇较真了一把：在已经被VAE压缩过的潜空间里，这个选择还重要吗？他们用一个130M的小模型在相同骨干、相同设置下对比，发现差别不小——预测速度会继承一个各向同性的方差地板、还会放大那些低方差的潜空间方向，而预测干净图反而能把这些噪声压下去。落到指标上，干净图预测在ImageNet上拿到FID 2.50，明显优于速度预测。结论是:预测目标不是可随意替换的代数参数，而是依赖表示的几何选择。对调扩散模型的人，这是个值得记一笔的设计直觉——不过具体收益还得看全文里的消融。

在潜空间里，预测「干净图」vs「速度」不是等价选择，几何上前者更占便宜速度预测会放大低方差方向的噪声，干净图预测能抑制它一个130M小模型就验证出明显差距，调参时值得一试

原文：JLT: Clean-Latent Prediction in Latent Diffusion Transformers

也值得关注

20B模型把PS的「图层」搬进了生成里 图像生成MRT统一了文生图层、图生图层、图层改图层三种任务，能直接产出可编辑的多层透明图，蒸馏到8步做到实时。据用户研究，图生图层质量超过同期的Qwen-Image-Layered，推理还快10-100倍、显存省一半以上。CVPR 2026。链接

能写对代码，不代表能写对「需求规格」 代码智能Amazon的Verus-SpecGym测LLM能否把自然语言问题翻译成可验证的形式化spec，最强的Gemini 3.1 Pro也只做到77.8%，常见失败是漏掉输入假设、放过错误输出。更扎心的是：用LLM当裁判会漏掉26%它们的执行式评测能抓到的错误。链接

让模型「看着图想」，得先逼它真的去看那张图 多模态Mila发现模型常常生成了中间思考图却根本不用它。他们的View Dropout在训练时把一部分输入视图藏起来、只让思考图token能看到，逼模型在答题时依赖自己画的图。配合全景式的思考图，跨视角空间推理的域外泛化最好。链接

今日概览

重点关注

01 多模态 让模型画检测框，最慢的居然是「写坐标」这一步

02 检索 不想为每种模态维护一个检索模型，怎么办

03 评测 空间基础模型号称全能，真把它们摆一起测呢

04 图像生成 扩散模型「预测什么」，原来不是随便挑的

也值得关注

01 多模态让模型画检测框，最慢的居然是「写坐标」这一步

02 检索不想为每种模态维护一个检索模型，怎么办

03 评测空间基础模型号称全能，真把它们摆一起测呢

04 图像生成扩散模型「预测什么」，原来不是随便挑的