今日概览
- 空间智能从被动理解翻成主动感知:TVR让agent对着一张目标照片自己转头迈步去复现视角,最强闭源模型成功率仅12%,但视觉-动作SFT能把一个9B开源模型从个位数拉到50%以上。
- 长上下文压缩也能保住代码推理:LongAttnComp微调一个轻量打分层,训练一次就能跨三个模型家族复用,在代码调试任务上压缩后追平全上下文。
- VLM写代码捏3D模型,卡点很具体:3DCodeBench把12个VLM丢进真实建模软件,失败大多是API用错、几何件断开,多轮迭代加执行反馈才救得回来。
- 技能适配的竞争点转向「归因粒度」:SkillAdaptor把失败责任从整条轨迹下沉到具体的step,骨干冻结、免训练,单项提升虽只有+1.5分,但每次改技能都可审计。
重点关注
01 机器人 给它一张目标照片,让它自己挪到能拍出这张图的位置
给基础模型一张目标视角的照片,让agent在3D房间里自己转头、迈步,一直移动到眼前的画面和照片对上为止——这件事人类下意识就能做,但模型几乎做不到。这篇提出的新任务TVR(目标视角复现)把空间智能从「看现成的图被动理解」翻成了「为了看清而主动移动」,配套开源了室内仿真benchmark TVRBench。结果相当扎心:最强的开源和闭源模型成功率分别只有7.8%和12.0%,远未解决。论文还拆出了两个一致的卡点——模型处理多轮视觉历史很吃力,而且一旦复现视角需要身体平移(而非原地转头)成绩就断崖式下跌,暴露了「把空间差异映射成具身动作」这一环的能力缺口。更有意思的是他们的post-training配方:视觉-动作SFT是主要功臣,把一个9B开源模型从个位数拉到50.8%,多轮GRPO再补上多房间的精修到51.4%;反倒是CoT监督和单轮GRPO会损害闭环表现——在这类需要连续决策的任务上,「先想清楚再动」未必比「边动边学」更管用。
原文:Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?
02 推理加速 给长文档「瘦身」,能不能不牺牲代码推理?
把10万token的输入塞进模型前,先压缩掉一部分再做prefill,是降低长上下文开销的常见思路。问题是现有那批免训练(training-free)的注意力压缩方法,在简单检索任务上还行,碰到代码调试这类需要真正推理的任务就明显掉点。LongAttnComp的做法是不再完全免训练——它只微调一个轻量的cross-attention打分层来决定哪些token该留,配上token级分块、token预算的top-p选择和位置重排。最值得注意的是「跨家族」这一点:同一个压缩器训练好之后,能直接迁移到三个不同家族的四个目标模型上,而不是绑死在某一个模型。结果上,InfiniteBench代码调试任务里压缩后的准确率追平甚至超过不压缩的全上下文,多文档推理也基本补回了第一阶段的差距——不过这些都是论文自报的benchmark结果,迁移到自己的真实场景能保住多少,需要实测确认。
原文:LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
03 代码智能 让VLM写代码捏3D模型,到底卡在哪一步
神经网络生成的3D资产有个老毛病:不确定、难编辑、拿到引擎里还得返工。用代码做程序化建模能绕开这些——输出是确定的、参数可调、引擎直接能用,代价是得懂3D软件API、参数化设计和几何推理,门槛不低。3DCodeBench系统性地把12个视觉语言模型(VLM)丢进真实建模软件里,让它们把文字和图片翻译成生成3D内容的代码,再用人类两两偏好打分(3DCodeArena)来评判结果好坏。测出来的能力边界挺具体:失败大多卡在API用错(调了不存在或不匹配的接口),而就算渲染成功,几何件之间也常常断开或者悬空。好消息是test-time scaling有效——给更多思考预算、多轮迭代修正都能整体提升,但这恰恰说明模型缺的是高质量的程序化代码数据,以及一个能给出高保真反馈、让它边试边改的执行环境。
原文:3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code
04 Agent 技能适配的差距,正从「改不改」转向「改得准不准」
免训练的技能适配有个一直没被认真处理的细节:agent失败时,多数方法是从整条轨迹或会话级反馈里去改技能——知道这次任务挂了,却说不清是哪一步、哪个技能的责任,结果改得不稳,甚至越改越宽。SkillAdaptor把归因下沉到step级别:先定位第一个「可纠正」的错误步骤,把责任挂到具体的候选技能上,再在显式的接受检查下做定向更新,骨干模型全程冻结。在WebShop、PinchBench、Claw-Eval三个套件、三个模型上都稳定好于no-skill和已有的技能适配基线,但单项最大提升也就+1.5到+1.8分。增量有限,所以真正值得关注的不是分数,而是「可审计」——每次改技能都能对应到具体的失败步骤,而不是一次黑箱式的整体重写。
原文:SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

也值得关注
今日观察
TVR和3DCodeBench摆在一起像是两件无关的事——一个在3D房间里挪动身体找视角,一个在建模软件里敲代码造资产。但它们落在同一条线上:VLM正在从「看图答题」被推向「在3D世界里采取动作」。TVR是为了看清而移动,3DCodeBench是为了构建而写代码,两者都不再满足于被动消化一张现成的观测,而是要让模型主动去操作那个空间。这个转向值得注意的地方在于,它同时改写了评估和能力建设两端:成功不再由「答案对不对」判定,而是由「动作有没有把环境带到目标状态」判定——TVR看你有没有移动到能复现照片的位置,3DCodeBench看你的代码有没有渲染出几何连得上的资产。
如果你在做具身、3D或任何让模型「动手」而非「答题」的方向,建议这周就把自己手上的任务过一遍:你的评估指标到底在测被动理解还是主动操作?如果还停在「看现成观测给答案」,不妨参照TVRBench或3DCodeBench的思路,补一个让模型真正在环境里采取动作、再用结果状态来判分的闭环测试。