换接口空间推理+11分

今日概览

  • 接口设计决定空间推理上限。SpatialClaw不换模型、不微调,只把agent调用工具的动作接口改成有状态的代码内核,20个benchmark平均准确率59.9%,比近期空间agent高11.2分,且在六个VLM底座上一致提升。
  • 科学自动化的最后一公里:LabVLA把视觉-语言-动作模型接进真实实验台,用仿真数据引擎补齐实验室数据稀缺,在LabUtopia上分布内外场景都拿了第一。
  • 数学证明拆成生成-验证-修复三种能力来训,再用群体级test-time scaling组织起来,IMO 2025拿35/42、USAMO 2026拿36/42,双双过了人类金牌线。
  • 图像模型补上「交错生成」缺口——InterleaveThinker用外挂式多智能体pipeline加单步RL,让任意生成器能一边想一边交替产出图文,水平追平Nano Banana和GPT-5。
  • 2D监督足以撬动3D生成,VideoMDM完全不用3D真值,只靠单目视频里的精确2D姿态就训出连贯的3D人体运动先验,HumanML3D上几乎追平用全套3D数据训练的MDM。

重点关注

01 Agent 同一套感知工具,换个接口就多出11分

大多数空间推理agent的瓶颈,被默认归到VLM不够聪明或感知模块不够好。SpatialClaw把矛头指向第三个常被忽略的环节:agent调用工具的「动作接口」。现有做法要么是单次代码执行——分析策略一次性写死,看不到中间结果就得提交;要么是结构化的工具调用接口——灵活度受限,难以自由组合操作。SpatialClaw的做法是用代码本身作为动作接口:维护一个有状态的Python内核,预装好输入帧和一套感知与几何原语,让VLM每步写一个可执行单元,且能基于此前所有文本和图像输出来决定下一步怎么做。训练-free,不改模型,在20个空间推理benchmark上平均准确率59.9%,比近期的空间agent高出11.2分,而且在两个模型家族的六个VLM底座上都稳定提升,没有针对特定benchmark或模型做适配。

跨底座的一致增益是这篇最有说服力的地方——它说明提升来自接口设计本身,而不是某个底座的偶然契合。需要看全文确认的是:有状态内核每步喂入全部历史输出,token开销和延迟怎么控制,多步组合失败时如何恢复。

agent能力上限不只取决于模型和工具,还取决于两者之间那层接口——优化重心可以从「换更强的模型」挪到「重新设计动作接口」代码作为动作接口的价值在于有状态、可基于中间结果逐步调整,而非一次性提交策略六个底座一致提升说明这是接口层的通用改进,做工具型agent的团队值得借鉴这套思路。

02 机器人 AI能写实验协议,为什么还得人去实验台动手?

科学自动化一直卡在最后一公里:AI已经能读文献、提假设、写出完整的实验协议,可真到台面上拧瓶盖、移液、操作仪器,还得人类亲自上。LabVLA想把这段补上——把视觉-语言-动作(VLA)模型接进真实的科学实验台。难点很具体:现有VLA几乎都在家居和桌面场景训练,没见过实验仪器、透明液体和固定流程的协议,搬进实验室就抓瞎。团队的解法是两条腿走,一条是RoboGenesis数据引擎,用仿真把原子技能拼成完整实验流程、自动校验过滤再导出多种机器人本体的演示数据,专治实验室数据稀缺;另一条是两阶段训练,先用FAST动作token让Qwen3-VL-4B骨干「懂动作」,再用流匹配挂上动作专家学连续控制。在LabUtopia基准上,不管是分布内还是分布外场景,LabVLA的平均成功率都拿了所有基线里的第一。

科学自动化的瓶颈正从「会思考」转向「能动手」,VLA是连接纸面协议和台面执行的关键接口实验室VLA的真瓶颈是数据和本体多样性,仿真数据引擎比堆模型更解决问题做实验室自动化或具身科研的团队,值得盯住这条「从纸面科学走到台面科学」的路线。

03 推理 把数学证明拆成生成、验证、修复三种能力来训

竞赛级数学证明的难点不在生成一个看起来对的证明,而在判断它到底对不对——一步偷换概念,整个证明就废了。MaxProof的做法是把模型拆成三种能力分开训:证明生成、证明验证、以及基于批判的修复(先指出错在哪,再让模型改)。验证器特意压低了误报率(把错证明判为对),相当于给整个流程加了一道防御纵深;测试时再让同一个模型同时扮演生成者、验证者、修复者和排序者,跑出一批候选证明,最后用锦标赛式的两两对比选出一个交卷。结果在IMO 2025拿到35/42、USAMO 2026拿到36/42,都过了人类金牌线——但更值得从业者关注的是这套结构本身。

生成-验证-修复三件套的价值在于把「判断对错」单独训成一种能力,而不是指望生成器自己保证正确测试时用群体搜索加锦标赛选择,本质是用算力换正确率,适合有自动验证信号的任务这套思路可迁移到代码、形式化证明等任何对错可机器判定的场景,数学只是验证信号最干净的那个。

04 图像生成 图像模型只会画单图,谁来教它一边想一边交替产出图文?

当前图像生成器在单图生成和编辑上已经很强,但有个被架构卡死的能力:交错生成——文字和图像交替出现的序列,而这恰恰是视觉叙事、分步指导、具身操作真正需要的形态。InterleaveThinker不去重训模型,而是在任意现有生成器外面套一个多智能体流水线:planner负责把图文输入排成执行序列、逐步下达指令,critic负责检查输出有没有跑偏、不行就改写指令重生成。难点在于一条交错轨迹可能要调用生成器25次以上,整条轨迹做RL不现实,所以他们改用单步RL加accuracy和step-wise两种奖励,用GRPO只优化单步就能引导整条轨迹。结果是在交错生成benchmark上做到了和Nano Banana、GPT-5相当的水平,而且意外地把底座模型在WISE、RISE这类推理类benchmark上也拉高了。思路扎实,但能否套上去就有效得看全文里对不同生成器的实测一致性。

交错生成(图文交替序列)是图像模型向agent形态靠拢的关键缺口,值得做视觉叙事、分步教程方向的团队关注这是个外挂式pipeline,宣称对任意现有生成器都能加,不用重训底座单步RL引导多步轨迹的做法绕开了长轨迹优化的算力难题,是这类agentic生成里可复用的工程思路。

05 视频生成 不用一帧3D真值,照样学出3D人体运动先验

按常理,训练3D人体运动生成模型得先有3D动捕数据——而这恰恰是最贵、最难规模化的一环。VideoMDM偏偏证明这步可以跳过:只用从单目视频里提取的精确2D姿态,就能训出连贯的3D运动先验。机制有点反直觉——先用一个现成的2D转3D抬升器生成粗糙的3D姿态序列当「带噪老师」,模型在3D空间里去噪,再把预测投影回2D,用准确的2D关键点来监督。作者还给了个让人服气的理论支撑:在温和假设下,带深度加权的2D重投影损失在期望意义上等价于直接的3D监督。效果上,HumanML3D基准几乎追平了用全套3D真值训练的MDM(FID 0.88对0.54,差距已经很小),在真实视频数据集上生成的动作还更受人类评测者偏好。

2D监督可等价撬动3D生成,绕开昂贵的3D动捕数据瓶颈与「推理时才把2D抬到3D」的做法不同,它在训练阶段就学到了连贯的3D运动流形做角色动画、运动数据合成的团队值得关注——数据获取成本可能因此大幅下降。
换接口空间推理+11分

也值得关注

06
自主科研的瓶颈不在agent工作流,而在agent环境的设计 AgentEurekAgent把可优化指标和执行环境当作主战场,和近期环境工程话题呼应。链接
07
世界动作模型的杠杆不在视觉重建保真度,而在语义化的视觉-动作tokenizer 机器人RepWAM要让这层表示连接起未来预测与机器人控制。链接
08
把agent harness从手工工程换成可训练插件 AgentHarnessBridge让接入环境的那层中介随任务一起优化。链接
09
从单张窄视角图实时构建可漫游的环绕世界 视频生成MoVerse把「世界构建」与「观测渲染」分离开。链接
10
让隐状态递归式的潜在思维链变得可切换、能用on-policy RL优化 推理缓解latent CoT难优化、难解释的老问题。链接
11
训练后量化把LLM压到三值权重加低比特激活 推理加速TWLA面向部署的极致压缩。链接
12
扩散模型的步级缓存不再靠阈值启发式 推理加速直接面向最终输出质量做预算约束下的缓存决策。链接
13
补上CLIP类模型的「词袋式」理解缺陷 多模态用跨模态掩码组合概念建模找回对象关系与属性绑定。链接
14
DoorDash实战:多智能体RL从延迟的市场反馈里学三方派单的目标权重调整 Agent难得的生产系统案例。链接
15
零信息源约束下检测幻觉 安全对齐不看模型内部、不依赖外部参考,靠类人判据探针。链接

今日观察

今天有三篇互不相关的工作,不约而同把刀口对准了同一个位置——不是模型本身,而是连接推理与动作的那层中介。SpatialClaw说限制空间推理的是agent调用工具的「动作接口」;RepWAM说世界动作模型的真正杠杆在「视觉-动作tokenizer」这层表示;HarnessBridge说agent与环境之间的harness应该是可训练的。三者各自命名了不同的接口层,却得出同一类结论:可优化的杠杆正从策略网络往下沉,落到中介表示这一层。

值得和近期「环境正成为新的扩展轴」的说法区分开。环境讲的是agent面对的外部世界——任务、奖励、可交互的状态空间;而这三篇说的是夹在策略与环境(或感知、控制)之间的那层翻译接口。前者是把舞台做大,后者是把策略与舞台之间的「传导杆」从写死的工程件换成可学习、可调优的部件。这层区别不只是措辞:如果瓶颈在环境,你该投入做环境引擎;如果瓶颈在中介接口,那同一个底座模型、同一套环境,光是把接口从手工设计改成可训练或更有状态的形态,就能拿到可观增益——SpatialClaw六底座齐涨11分就是证据。

可落地的动作:盘点你自己agent系统里那些被当成「固定管道」的中间层——工具调用协议、观测编码、动作tokenizer、harness——挑一个最像「写死的翻译层」的,先把它改成有状态或可基于中间结果迭代的形态(不必上RL),用现有底座跑个A/B,看接口本身能榨出多少增量,再决定要不要为它单开一条训练通道。