今日概览
- 换个机械臂整套技能就废,解法是「重接线」而非重训:RECENT把技能写成可执行代码,只对会随本体/环境变化的执行绑定做局部重构,让小模型在机器人本地完成对齐,任务表现追平大模型版。
- Robust-U1让模型先修图再答题,把「鲁棒性」变成可观察的中间产物——三段式自恢复路线对付模糊、噪声、遮挡这些上线才暴露的视觉损坏,代价是多一步重建。
- VLM其实「看见」了鸭兔图的两种解读:探针发现72%的双稳态图在视觉端同时点亮两种特征,定向的瓶颈卡在下游语言端,而非视觉塔。
- 远距离红外成像里长期被搁置的大气补偿,这篇用set-based框架把同一场景的多次辐射测量当无序集合联合反解,可迁移的是建模思路而非LWIR场景本身。
重点关注
01 机器人 换个机械臂,整套技能就得从头练
机器人复用技能时有个尴尬的现实:本体或环境哪怕只差一点——换了个夹爪、桌面高度变了——原本能用的整套技能就直接失效。常规思路是再请一个大模型(LLM)来重新生成,但在动态、部分可观测的真实机器人场景里,大模型部署不现实,小模型(sLM)又撑不起长程控制需要的可靠对齐。RECENT换了个工程视角:把技能写成可执行代码,技能的语义意图(控制结构)保持不动,只对「执行绑定」那部分做局部重构——相当于把问题从「重新学习」降级成「重新接线」。这样小模型不必凭空生成一整段策略,只需改动会因本体/环境而变的那几行。论文报告在多种机器人本体的动态环境里,RECENT是小模型版Code-as-Policies方法里表现最好的,并且追平了大模型版的任务表现——这是只看摘要的结论,具体迁移范围还需看全文确认。
真正值得琢磨的是它选小模型而非大模型这个取舍:不是为了刷SOTA,而是为了可部署、可迭代——能跑在机器人本地、迭代成本低。对做具身智能落地的团队,「重构而非重训」这个框架比那条「追平大模型」的指标更有参考价值。
原文:Efficient Skill Grounding via Code Refactoring with Small Language Models
02 多模态 让模型先修图,再答题
真实世界里的图片很少是干净的:手机随手一拍有模糊,监控画面有噪点,物体被半遮挡——这些「视觉损坏」恰恰是多模态模型(MLLM)在 benchmark 上看不到、一上线就掉点的坑。过去的鲁棒性增强要么走黑盒特征对齐(没法解释模型在补什么),要么靠文字推理硬扛(但丢失的像素细节文字救不回来)。Robust-U1 换了个思路:先让模型把损坏的画面「自己补回来」,再基于补全后的图去理解。具体做法是三段式——监督微调学初步重建,再用像素级(SSIM)和语义级(CLIP)双重奖励做强化学习对齐质量,最后让模型同时看原始损坏图和恢复图来推理。这条路线的价值在于把「鲁棒性」变成了可观察的中间产物,但代价也明显:多了一步图像重建,推理链路更重,重建质量不行时反而可能误导后续判断——这部分需要看全文的失败案例才能下结论。
原文:Robust-U1: Can MLLMs Self-Recover Corrupted Visual Content for Robust Understanding?
03 可解释性 模型「看见」了两种答案,却只说得出一种
直觉上,VLM给模糊图配文时选了「鸭」,是因为它压根没意识到「兔」的存在。但这篇用稀疏自编码器探针扒开LLaVA的视觉塔后发现:69张双稳态图里有72%在视觉端同时点亮了两种解读的特征——模型其实「看见」了两个答案,承诺(说成鸭还是兔)发生在更下游。更反直觉的是干预的不对称:对默认偏向明显的鸭兔图,在CLIP第22层做因果操控能把33%的描述翻成「兔」;但对老少头那种本就五五开的图,调到任何系数都翻不动,哪怕视觉端明明两种特征都在叠加。这说明「看见」和「看成」是两件事——歧义信息在视觉表征里是有的,但定向的瓶颈卡在语言端,不是随便就能撬动的。对做可控生成或想纠偏模型取向的人,这是个清醒剂:特征探针告诉你信息在哪,不等于你就能从那里改写输出。
原文:Vision-Language Asymmetry in Bistable Image Captioning
04 AI for Science 从多份带噪观测里反解物理量,集合建模是个值得借的思路
远距离被动LWIR(长波红外)高光谱成像有个绕不过的麻烦:目标信号一路上被大气的吸收和发射搅浑,想看清目标就得先做「大气补偿」,而这件事因为建模太难一直被搁置。这篇工作不追通用热点,专攻这个小众难题——用一个轻量的set-based(基于集合)深度框架,把同一场景在不同距离下的多次辐射测量一起喂进去,联合反解出透过率、大气程辐射和共享的下行光谱。真正有借鉴价值的不是LWIR这个具体场景,而是它的建模姿态:把「多次带噪观测」当成一个无序集合来联合处理,而不是逐条硬算。作者还用稀疏自编码器探了下学到的表征,发现有些隐变量在没有地理监督的情况下,竟然对地理上连贯的数据子集有响应——这点有意思但需要看全文才能判断是否稳健。结论目前只在MODTRAN仿真数据上验证,离真实部署还有距离。
原文:Set-Based Transformer for Atmospheric Compensation in Standoff LWIR Hyperspectral Imaging

也值得关注
今日观察
视觉输入不理想时,模型到底在干什么?这个问题今天被两篇VLM工作从相反方向各自撬开。Robust-U1处理的是输入被损坏——模糊、噪声、遮挡,问的是模型能不能自己把缺失的内容补回来;双稳态captioning处理的是输入本身歧义——鸭兔图这种两可的画面,问的是模型在内部哪一步把「看成鸭还是兔」定死。一个是修复,一个是定位;一个想让模型在残缺输入下仍可用,一个想看清模型在多义输入下的取向卡在哪一层。
合起来,它们提示了一件容易被「干净测试集准确率」掩盖的事:VLM的可靠性不只是答对率,而是它面对残缺或多义视觉时的行为是否可预测、可干预。这不是什么「鲁棒性新趋势」,两篇只是恰好都触到了同一层问题。但对要把VLM放进真实产品的人,这层问题比榜单分数更贴近线上会出的岔子。
具体可以做的一件事:给你的VLM单独搭一组「脏输入」评测——把现有测试图做模糊、加噪、遮挡,再混入几张本身就两可的图,单独看这部分的表现和稳定性,而不是只盯整体准确率。这能帮你在上线前就摸到模型在视觉不理想时的行为边界。