主动找视角,最强模型仅12%

今日概览

  • 空间智能从被动理解翻成主动感知:TVR让agent对着一张目标照片自己转头迈步去复现视角,最强闭源模型成功率仅12%,但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。
  • 长上下文压缩也能保住代码推理:LongAttnComp微调一个轻量打分层,训练一次就能跨三个模型家族复用,在代码调试任务上压缩后追平全上下文。
  • VLM写代码捏3D模型,卡点很具体:3DCodeBench把12个VLM丢进真实建模软件,失败大多是API用错、几何件断开,多轮迭代加执行反馈才救得回来。
  • 技能适配的竞争点转向「归因粒度」:SkillAdaptor把失败责任从整条轨迹下沉到具体的step,骨干冻结、免训练,单项提升虽只有+1.5分,但每次改技能都可审计。

重点关注

01 机器人 给它一张目标照片,让它自己挪到能拍出这张图的位置

给基础模型一张目标视角的照片,让agent在3D房间里自己转头、迈步,一直移动到眼前的画面和照片对上为止——这件事人类下意识就能做,但模型几乎做不到。这篇提出的新任务TVR(目标视角复现)把空间智能从「看现成的图被动理解」翻成了「为了看清而主动移动」,配套开源了室内仿真benchmark TVRBench。结果相当扎心:最强的开源和闭源模型成功率分别只有7.8%和12.0%,远未解决。论文还拆出了两个一致的卡点——模型处理多轮视觉历史很吃力,而且一旦复现视角需要身体平移(而非原地转头)成绩就断崖式下跌,暴露了「把空间差异映射成具身动作」这一环的能力缺口。更有意思的是他们的post-training配方:视觉-动作SFT是主要功臣,把一个9B开源模型从个位数拉到50.8%,多轮GRPO再补上多房间的精修到51.4%;反倒是CoT监督和单轮GRPO会损害闭环表现——在这类需要连续决策的任务上,「先想清楚再动」未必比「边动边学」更管用。

TVR把空间智能从被动理解翻成主动感知,给做具身/导航的人提供了一个能力评估的新维度现成基础模型在这类任务上几乎是零基础(最强闭源仅12%),别指望直接拿来用视觉-动作SFT撑起主要增益、而CoT和单轮GRPO反而帮倒忙,提示闭环具身任务的训练范式和静态推理不一样

02 推理加速 给长文档「瘦身」,能不能不牺牲代码推理?

把10万token的输入塞进模型前,先压缩掉一部分再做prefill,是降低长上下文开销的常见思路。问题是现有那批免训练(training-free)的注意力压缩方法,在简单检索任务上还行,碰到代码调试这类需要真正推理的任务就明显掉点。LongAttnComp的做法是不再完全免训练——它只微调一个轻量的cross-attention打分层来决定哪些token该留,配上token级分块、token预算的top-p选择和位置重排。最值得注意的是「跨家族」这一点:同一个压缩器训练好之后,能直接迁移到三个不同家族的四个目标模型上,而不是绑死在某一个模型。结果上,InfiniteBench代码调试任务里压缩后的准确率追平甚至超过不压缩的全上下文,多文档推理也基本补回了第一阶段的差距——不过这些都是论文自报的benchmark结果,迁移到自己的真实场景能保住多少,需要实测确认。

长上下文压缩想保住代码/多跳推理这类硬任务,纯免训练注意力方法不够,得微调一个轻量打分层「跨家族」意味着压缩器训练一次可复用到多个不同模型,部署时不用为每个模型重做做长文档/长对话产品的团队值得拿自己的任务实测一遍,benchmark追平全上下文不等于你的场景也追平

03 代码智能 让VLM写代码捏3D模型,到底卡在哪一步

神经网络生成的3D资产有个老毛病:不确定、难编辑、拿到引擎里还得返工。用代码做程序化建模能绕开这些——输出是确定的、参数可调、引擎直接能用,代价是得懂3D软件API、参数化设计和几何推理,门槛不低。3DCodeBench系统性地把12个视觉语言模型(VLM)丢进真实建模软件里,让它们把文字和图片翻译成生成3D内容的代码,再用人类两两偏好打分(3DCodeArena)来评判结果好坏。测出来的能力边界挺具体:失败大多卡在API用错(调了不存在或不匹配的接口),而就算渲染成功,几何件之间也常常断开或者悬空。好消息是test-time scaling有效——给更多思考预算、多轮迭代修正都能整体提升,但这恰恰说明模型缺的是高质量的程序化代码数据,以及一个能给出高保真反馈、让它边试边改的执行环境。

程序化代码生成3D走的是「确定可编辑」路线,和神经3D生成器是互补取舍,做引擎资产管线的团队值得关注当前VLM的瓶颈是API知识和几何连接,不是写不出代码而是写不对多轮迭代+执行反馈能救场,谁先把「高保真反馈环境」做扎实谁就占先手。

04 Agent 技能适配的差距,正从「改不改」转向「改得准不准」

免训练的技能适配有个一直没被认真处理的细节:agent失败时,多数方法是从整条轨迹或会话级反馈里去改技能——知道这次任务挂了,却说不清是哪一步、哪个技能的责任,结果改得不稳,甚至越改越宽。SkillAdaptor把归因下沉到step级别:先定位第一个「可纠正」的错误步骤,把责任挂到具体的候选技能上,再在显式的接受检查下做定向更新,骨干模型全程冻结。在WebShop、PinchBench、Claw-Eval三个套件、三个模型上都稳定好于no-skill和已有的技能适配基线,但单项最大提升也就+1.5到+1.8分。增量有限,所以真正值得关注的不是分数,而是「可审计」——每次改技能都能对应到具体的失败步骤,而不是一次黑箱式的整体重写。

技能维护的竞争点在从「是否复用」转向「归因粒度」,step-level比会话级反馈更稳也更可审计分数提升只有+1.5~+1.8,别冲着指标用,值得看的是「定位到具体失败步骤」这个机制本身免训练加骨干冻结、可插入OpenClaw类harness,对已有agent栈接入成本低,做技能资产化的团队可以拿来对照。
主动找视角,最强模型仅12%

也值得关注

05
VLM的文档理解能跨语言迁移吗 评测HakushoBench用日本政府白皮书构建日语图表/表格VQA benchmark,专门测非英语文档理解这块盲区。链接
06
法律和人文的引文藏在脚注里 检索现有抽取工具都为自然科学的结构化文末参考文献设计,FOSSIL给脚注引用、和评注交织的场景做了数据集和抽取流程。链接
07
只在少数时刻更新参数也能做到实用最优 训练优化线性contextual bandit在「参数极少更新」约束下的算法,观测和选动作仍在线,但只在个别时刻并入reward反馈,贴近真实工程约束(ICML接收)。链接

今日观察

TVR和3DCodeBench摆在一起像是两件无关的事——一个在3D房间里挪动身体找视角,一个在建模软件里敲代码造资产。但它们落在同一条线上:VLM正在从「看图答题」被推向「在3D世界里采取动作」。TVR是为了看清而移动,3DCodeBench是为了构建而写代码,两者都不再满足于被动消化一张现成的观测,而是要让模型主动去操作那个空间。这个转向值得注意的地方在于,它同时改写了评估和能力建设两端:成功不再由「答案对不对」判定,而是由「动作有没有把环境带到目标状态」判定——TVR看你有没有移动到能复现照片的位置,3DCodeBench看你的代码有没有渲染出几何连得上的资产。

如果你在做具身、3D或任何让模型「动手」而非「答题」的方向,建议这周就把自己手上的任务过一遍:你的评估指标到底在测被动理解还是主动操作?如果还停在「看现成观测给答案」,不妨参照TVRBench或3DCodeBench的思路,补一个让模型真正在环境里采取动作、再用结果状态来判分的闭环测试。