换机械臂不重训，VLM同时看见鸭兔

今日概览

换个机械臂整套技能就废，解法是「重接线」而非重训：RECENT把技能写成可执行代码，只对会随本体/环境变化的执行绑定做局部重构，让小模型在机器人本地完成对齐，任务表现追平大模型版。
Robust-U1让模型先修图再答题，把「鲁棒性」变成可观察的中间产物——三段式自恢复路线对付模糊、噪声、遮挡这些上线才暴露的视觉损坏，代价是多一步重建。
VLM其实「看见」了鸭兔图的两种解读：探针发现72%的双稳态图在视觉端同时点亮两种特征，定向的瓶颈卡在下游语言端，而非视觉塔。
远距离红外成像里长期被搁置的大气补偿，这篇用set-based框架把同一场景的多次辐射测量当无序集合联合反解，可迁移的是建模思路而非LWIR场景本身。

重点关注

01 机器人换个机械臂，整套技能就得从头练

机器人复用技能时有个尴尬的现实：本体或环境哪怕只差一点——换了个夹爪、桌面高度变了——原本能用的整套技能就直接失效。常规思路是再请一个大模型(LLM)来重新生成，但在动态、部分可观测的真实机器人场景里，大模型部署不现实，小模型(sLM)又撑不起长程控制需要的可靠对齐。RECENT换了个工程视角：把技能写成可执行代码，技能的语义意图（控制结构）保持不动，只对「执行绑定」那部分做局部重构——相当于把问题从「重新学习」降级成「重新接线」。这样小模型不必凭空生成一整段策略，只需改动会因本体/环境而变的那几行。论文报告在多种机器人本体的动态环境里，RECENT是小模型版Code-as-Policies方法里表现最好的，并且追平了大模型版的任务表现——这是只看摘要的结论，具体迁移范围还需看全文确认。

真正值得琢磨的是它选小模型而非大模型这个取舍：不是为了刷SOTA，而是为了可部署、可迭代——能跑在机器人本地、迭代成本低。对做具身智能落地的团队，「重构而非重训」这个框架比那条「追平大模型」的指标更有参考价值。

技能复用的真正拦路虎是本体/环境微小差异导致整套失效，而非学不会新技能把技能当代码、只重构执行绑定，能让小模型本地完成对齐，绕开大模型部署难题这是一笔工程账——可部署、可迭代优先于追SOTA，做落地的团队值得借鉴这个思路

原文：Efficient Skill Grounding via Code Refactoring with Small Language Models

02 多模态让模型先修图，再答题

真实世界里的图片很少是干净的：手机随手一拍有模糊，监控画面有噪点，物体被半遮挡——这些「视觉损坏」恰恰是多模态模型（MLLM）在 benchmark 上看不到、一上线就掉点的坑。过去的鲁棒性增强要么走黑盒特征对齐（没法解释模型在补什么），要么靠文字推理硬扛（但丢失的像素细节文字救不回来）。Robust-U1 换了个思路：先让模型把损坏的画面「自己补回来」，再基于补全后的图去理解。具体做法是三段式——监督微调学初步重建，再用像素级（SSIM）和语义级（CLIP）双重奖励做强化学习对齐质量，最后让模型同时看原始损坏图和恢复图来推理。这条路线的价值在于把「鲁棒性」变成了可观察的中间产物，但代价也明显：多了一步图像重建，推理链路更重，重建质量不行时反而可能误导后续判断——这部分需要看全文的失败案例才能下结论。

视觉损坏是 MLLM 从 demo 到部署最容易踩的坑，clean benchmark 分数无法反映自恢复路线把鲁棒性变成可解释的中间步骤，比黑盒对齐更容易诊断代价是多一步重建、链路更重，重建失败可能反噬，落地前要评估这笔开销

原文：Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?

03 可解释性模型「看见」了两种答案，却只说得出一种

直觉上，VLM给模糊图配文时选了「鸭」，是因为它压根没意识到「兔」的存在。但这篇用稀疏自编码器探针扒开LLaVA的视觉塔后发现：69张双稳态图里有72%在视觉端同时点亮了两种解读的特征——模型其实「看见」了两个答案，承诺(说成鸭还是兔)发生在更下游。更反直觉的是干预的不对称：对默认偏向明显的鸭兔图，在CLIP第22层做因果操控能把33%的描述翻成「兔」;但对老少头那种本就五五开的图，调到任何系数都翻不动，哪怕视觉端明明两种特征都在叠加。这说明「看见」和「看成」是两件事——歧义信息在视觉表征里是有的,但定向的瓶颈卡在语言端,不是随便就能撬动的。对做可控生成或想纠偏模型取向的人,这是个清醒剂:特征探针告诉你信息在哪,不等于你就能从那里改写输出。

VLM对歧义图像的取向不是随机,而是结构化、可定位的——但定位到了不等于能干预视觉塔会同时编码多种解读,真正的「承诺点」在下游语言端想靠激活操控纠偏模型偏向的团队,要先确认瓶颈是否在你能触及的那一层。

原文：Vision-Language Asymmetry in Bistable Image Captioning

04 AI for Science 从多份带噪观测里反解物理量，集合建模是个值得借的思路

远距离被动LWIR(长波红外)高光谱成像有个绕不过的麻烦：目标信号一路上被大气的吸收和发射搅浑，想看清目标就得先做「大气补偿」，而这件事因为建模太难一直被搁置。这篇工作不追通用热点，专攻这个小众难题——用一个轻量的set-based(基于集合)深度框架，把同一场景在不同距离下的多次辐射测量一起喂进去，联合反解出透过率、大气程辐射和共享的下行光谱。真正有借鉴价值的不是LWIR这个具体场景，而是它的建模姿态：把「多次带噪观测」当成一个无序集合来联合处理，而不是逐条硬算。作者还用稀疏自编码器探了下学到的表征，发现有些隐变量在没有地理监督的情况下，竟然对地理上连贯的数据子集有响应——这点有意思但需要看全文才能判断是否稳健。结论目前只在MODTRAN仿真数据上验证，离真实部署还有距离。

大气补偿是远距离红外成像的硬骨头，长期因建模难被搁置，这篇给了个轻量解法真正可迁移的是「用集合建模联合反解多份噪声观测」的思路，凡是要从多次测量里抠物理量的场景都能借鉴目前只在仿真数据上验证，地理表征的涌现现象需要全文确认。

原文：Set-Based Transformer for Atmospheric Compensation in Standoff LWIR Hyperspectral Imaging

也值得关注

多个教学agent各提一个合理方案，最终只能给学生一个回答 Agent用投票协议协调多agent协作，把「多agent分歧」当治理问题而非能力问题来解。链接

想搞清「推理时多花算力」在多模态里有哪些可落地手段，这篇可以当地图用 多模态把test-time scaling在多模态基础模型上的生成与推理两条线做了系统综述。链接

今日观察

视觉输入不理想时，模型到底在干什么？这个问题今天被两篇VLM工作从相反方向各自撬开。Robust-U1处理的是输入被损坏——模糊、噪声、遮挡，问的是模型能不能自己把缺失的内容补回来；双稳态captioning处理的是输入本身歧义——鸭兔图这种两可的画面，问的是模型在内部哪一步把「看成鸭还是兔」定死。一个是修复，一个是定位；一个想让模型在残缺输入下仍可用，一个想看清模型在多义输入下的取向卡在哪一层。

合起来，它们提示了一件容易被「干净测试集准确率」掩盖的事：VLM的可靠性不只是答对率，而是它面对残缺或多义视觉时的行为是否可预测、可干预。这不是什么「鲁棒性新趋势」，两篇只是恰好都触到了同一层问题。但对要把VLM放进真实产品的人，这层问题比榜单分数更贴近线上会出的岔子。

具体可以做的一件事：给你的VLM单独搭一组「脏输入」评测——把现有测试图做模糊、加噪、遮挡，再混入几张本身就两可的图，单独看这部分的表现和稳定性，而不是只盯整体准确率。这能帮你在上线前就摸到模型在视觉不理想时的行为边界。