今日概览
- 新物体上线,从「准备CAD」压到「丢几张参考图」:PANY用多视角几何骨干替代单锚点配对,YCB-V姿态精度+12%、LM-O超过+20%,对做具身抓取的团队,这条成本曲线比单个精度数字更值得看。
- 基础模型改不动,就在它后面挂个补丁:PEPA冻结编码器、只加0.26M参数的plug-in,专治曲线分割的细结构丢失和阈值卡不准,clDice涨幅大于IoU——修的是「断不断」而非「准不准」。
- 模型说在看图,其实在背语料:CFPO用「抹掉图看答案变不变」的反事实信号,给VLM的视觉推理补上因果约束,能直接挂在GRPO/DAPO上;提升只有个位数百分点,诊断比数字更有价值。
重点关注
01 机器人 给新物体估姿态,从「准备CAD」变成「丢几张参考图」
PANY的核心能力是:不用CAD模型、不限定单一参考视角,丢几张随手拍的参考图就能估出没见过物体的6D姿态。过去的model-free方法大多卡在单锚点配对(pairwise single-anchor matching),一旦遇到遮挡或大视角变化、查询图和参考图重叠太少就失效;PANY换成多视角transformer几何骨干,学习跨视角一致的几何和对齐线索,在宽基线、低重叠下更稳。如果手头有额外的无姿态辅助视图,它还能通过位姿图配准把这些视图聚合起来,扩大几何覆盖、强化最终结果。从数字看,YCB-V上姿态精度+12%、LM-O上超过+20%,相比现有model-free方法是实打实的提升,但这两个都是常见基准,真实的杂乱、重遮挡场景表现还要看实测。这是一篇ECCV体量的工作,方向上把「上线一个新物体」的成本从准备资产、重新onboarding压到了拍几张图,对做具身和抓取的团队,这个成本曲线的变化比单个精度数字更值得留意。
原文:Pose Anything Anywhere: Model-free Object Poses from Arbitrary References
02 模型架构 基础模型改不动,就在它后面挂个补丁
分割血管、裂缝这类曲线状目标有个老麻烦:它们在画面里又细又稀,拓扑还脆——一个局部小错就能让一根血管断成两截。现在的管线又越来越依赖强但「改不动」的基础编码器,重训backbone既贵又不现实。PEPA没去碰backbone,而是在冻结的编码器之后挂一个轻量适配器,专治两个具体环节:上采样时细结构恢复不全(重建瓶颈),以及二值化时阈值卡不准(决策瓶颈)。它用一种沿目标走向连续采样的「蛇形上采样」补回细长结构,再用一个可微的自适应阈值替代硬二值化。五个医疗和工业benchmark上,拓扑连通性指标(clDice)的提升普遍大于区域重叠(IoU)的提升——说明它修的主要是「断不断」而不是「准不准」,这正是曲线分割最在意的地方。代价是约0.26M额外参数,几乎可以忽略。
原文:From Reconstruction to Decision: A Post-Encoder Plug-in Adapter for Curvilinear Segmentation
03 多模态 模型说在看图,其实在背语料
视觉语言模型有个尴尬的毛病:嘴上一步步分析图片,实际推理时却在吃语言先验,图里的证据根本没盯住——长链推理越长,这种「幻觉漂移」越严重。CFPO的诊断切中要害:主流RL范式(如GRPO)只奖励答对,没机制逼模型真的依赖视觉。它的做法是构造一个「把关键视觉线索抹掉」的反事实状态,然后逼模型在有图和没图之间拉开预测差距——如果抹掉图答案不变,说明模型压根没在看图。好处是能直接挂在GRPO、DAPO上,不需要额外的奖励模型或标注。比标准RL基线提升3.17%-6.25%,比已有的感知增强方法PAPO高1.32%-2.13%——诊断站得住,但收益偏小,关键的grounding硬指标摘要里被截断了,得看全文才知道是真治住了幻觉还是只刷高了准确率。
原文:CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

也值得关注
今日观察
今天有两篇放在一起会愣一下:PANY在给没见过的物体估6D姿态,曲线分割那篇PEPA在分血管和裂缝,一个搞机器人抓取、一个搞医疗工业图像,业务上毫无交集。但翻到方法那一页,两支队伍的第一个决定是一样的——都明确不去碰那个又强又重的基础模型。PANY拒绝CAD和重onboarding,改成几张参考图驱动;PEPA拒绝重训backbone,改成在冻结编码器后面挂一个0.26M的plug-in。这不是什么「今天的趋势」,就是两次恰好同向的工程取舍:当强基础模型既贵又改不动,给它外面套一层薄的,往往比撬开它更划算。值得记的是这层「薄」该薄在哪——PANY薄在数据准备侧(换输入形态),PEPA薄在表示加工侧(换输出环节),都没动中间那块重的。下次你接一个新任务、又有一个强但难调的底座时,先别急着想怎么微调它,花十分钟列一下:这个任务真正缺的那点能力,能不能用一个加在它前面或后面的轻量模块补上?