视觉模型开始重新设计自己的输出方式

今日概览

  • VLM画框为什么这么慢? LocateAnything发现问题出在「一个一个吐坐标」,干脆让模型一步并行吐出整个框,又快又准,HF热度当天冲到91
  • 一个embedding模型,把视频、音频、图、文都装进同一个空间:Google的Gemini Embedding 2在检索、跨模态、代码多个榜单上一并刷到SOTA
  • 空间基础模型号称什么都能干,但SpatialBench把41个模型拉出来一测,发现没一个是全能选手,而且数据质量比堆规模更重要
  • 扩散模型预测什么目标,不是随便选的:JLT用一个130M小模型证明,在潜空间里「预测干净图」比「预测速度」几何上更占便宜

重点关注

01 多模态 让模型画检测框,最慢的居然是「写坐标」这一步

现在的视觉语言模型做目标检测,普遍把一个框拆成「左上角x、左上角y、宽、高」这么几个数字,然后像写文章一样一个token一个token地往外蹦。问题是框这个东西本来是个整体——四个角是强相关的几何结构,可模型却被迫拆开了、还得严格按顺序生成,既慢又容易丢掉框内部的几何一致性。LocateAnything换了个decode方式:把一个框(或一个点)当成一个「原子」,一步并行解出来,不再逐字写坐标。配上一个能造1.38亿训练样本的数据引擎,它在速度和高精度定位上同时往前推了一截——decode吞吐明显更高,高IoU下的定位质量还更好。对做检测、grounding、需要VLM精确指物的产品来说,这是个把延迟和精度一起改善的实在路子。出自NVIDIA团队(Jan Kautz、Andrew Tao等)。

逐token吐坐标是VLM检测被忽视的速度瓶颈把框当原子单元一步并行解出,吞吐和精度可以兼得1.38亿样本的数据引擎是这套方法能work的另一半

02 检索 不想为每种模态维护一个检索模型,怎么办

做RAG、推荐、搜索的人都知道这个痛:文本有文本的embedding模型,图像有图像的,视频音频又是另一套,跨模态检索还得拼来拼去。Google这次直接给出一个「全都要」的方案——Gemini Embedding 2把视频、音频、图像、文本塞进同一个表示空间,而且支持任意交错的混合输入。它靠的是大规模对比学习加多任务多阶段训练,结果在好几个关键榜单上一并刷到SOTA:图文检索、视频检索、多语言文本、代码检索全拿下,超过了那些各自专门训练的模型。更省心的是它的零样本表现——从天文、生物到美食、艺术这些冷门领域开箱就能用。对正在搭检索或推荐系统的团队,这意味着可能用一个模型就把多模态那摊事统一了。

一个模型覆盖视频/音频/图/文的统一embedding空间,省掉多套模型的维护成本多个检索榜单同时SOTA,且支持交错混合输入冷门垂直领域零样本可用,适合直接接进RAG/搜索/推荐

03 评测 空间基础模型号称全能,真把它们摆一起测呢

这两年「空间基础模型」很火——重建、深度、位姿、3D理解都想用一个模型搞定。但大家都是在自己设计或训练的那个领域里报成绩,换个视角、换个场景、换个输入密度就没人测了,所谓的「通用」其实没被真正检验过。SpatialBench把这事补上了:19个数据集、546个场景、5个空间领域,用确定性采样把41个模型、6种范式拉到一起做横评。结论挺清醒——现在没有哪个模型是真正的全能选手。几个有用的发现:全上下文注意力精度最高,但要处理长序列还得靠有界内存的策略;在具身和第一人称这类硬任务上,严格的领域对齐和高数据质量,远比单纯把数据集做大更管用。团队还顺手放出了一个大规模数据集DA-Next-5M和一个强基线DA-Next。对在选型空间模型、或者在做具身/3D的人,这是张值得参考的全景地图。

空间基础模型目前没有全能选手,跨视角/跨场景的泛化是真实短板具身任务里领域对齐+数据质量比扩大数据集更关键DA-Next-5M数据集和DA-Next基线可直接拿来用

04 图像生成 扩散模型「预测什么」,原来不是随便挑的

训扩散/flow模型时有个看似无所谓的选择:让模型预测「干净的原图」,还是预测「噪声」或「速度」?数学上这几个量在固定时刻是能线性互换的,所以很多人当成等价的参数化随便选。JLT这篇较真了一把:在已经被VAE压缩过的潜空间里,这个选择还重要吗?他们用一个130M的小模型在相同骨干、相同设置下对比,发现差别不小——预测速度会继承一个各向同性的方差地板、还会放大那些低方差的潜空间方向,而预测干净图反而能把这些噪声压下去。落到指标上,干净图预测在ImageNet上拿到FID 2.50,明显优于速度预测。结论是:预测目标不是可随意替换的代数参数,而是依赖表示的几何选择。对调扩散模型的人,这是个值得记一笔的设计直觉——不过具体收益还得看全文里的消融。

在潜空间里,预测「干净图」vs「速度」不是等价选择,几何上前者更占便宜速度预测会放大低方差方向的噪声,干净图预测能抑制它一个130M小模型就验证出明显差距,调参时值得一试
视觉模型开始重新设计自己的输出方式

也值得关注

05
20B模型把PS的「图层」搬进了生成里 图像生成MRT统一了文生图层、图生图层、图层改图层三种任务,能直接产出可编辑的多层透明图,蒸馏到8步做到实时。据用户研究,图生图层质量超过同期的Qwen-Image-Layered,推理还快10-100倍、显存省一半以上。CVPR 2026。链接
06
能写对代码,不代表能写对「需求规格」 代码智能Amazon的Verus-SpecGym测LLM能否把自然语言问题翻译成可验证的形式化spec,最强的Gemini 3.1 Pro也只做到77.8%,常见失败是漏掉输入假设、放过错误输出。更扎心的是:用LLM当裁判会漏掉26%它们的执行式评测能抓到的错误。链接
07
让模型「看着图想」,得先逼它真的去看那张图 多模态Mila发现模型常常生成了中间思考图却根本不用它。他们的View Dropout在训练时把一部分输入视图藏起来、只让思考图token能看到,逼模型在答题时依赖自己画的图。配合全景式的思考图,跨视角空间推理的域外泛化最好。链接