丢几张参考图就给新物体估姿态

今日概览

新物体上线，从「准备CAD」压到「丢几张参考图」：PANY用多视角几何骨干替代单锚点配对，YCB-V姿态精度+12%、LM-O超过+20%，对做具身抓取的团队，这条成本曲线比单个精度数字更值得看。
基础模型改不动，就在它后面挂个补丁：PEPA冻结编码器、只加0.26M参数的plug-in，专治曲线分割的细结构丢失和阈值卡不准，clDice涨幅大于IoU——修的是「断不断」而非「准不准」。
模型说在看图，其实在背语料：CFPO用「抹掉图看答案变不变」的反事实信号，给VLM的视觉推理补上因果约束，能直接挂在GRPO/DAPO上；提升只有个位数百分点，诊断比数字更有价值。

重点关注

01 机器人给新物体估姿态，从「准备CAD」变成「丢几张参考图」

PANY的核心能力是：不用CAD模型、不限定单一参考视角，丢几张随手拍的参考图就能估出没见过物体的6D姿态。过去的model-free方法大多卡在单锚点配对（pairwise single-anchor matching），一旦遇到遮挡或大视角变化、查询图和参考图重叠太少就失效；PANY换成多视角transformer几何骨干，学习跨视角一致的几何和对齐线索，在宽基线、低重叠下更稳。如果手头有额外的无姿态辅助视图，它还能通过位姿图配准把这些视图聚合起来，扩大几何覆盖、强化最终结果。从数字看，YCB-V上姿态精度+12%、LM-O上超过+20%，相比现有model-free方法是实打实的提升，但这两个都是常见基准，真实的杂乱、重遮挡场景表现还要看实测。这是一篇ECCV体量的工作，方向上把「上线一个新物体」的成本从准备资产、重新onboarding压到了拍几张图，对做具身和抓取的团队，这个成本曲线的变化比单个精度数字更值得留意。

新物体上线成本从「准备CAD/onboarding」降到「丢几张参考图」，对具身抓取的迭代速度有直接影响多视角几何替代单锚点配对，是它在遮挡和大视角下更稳的关键，泛化边界仍需在杂乱场景实测+12%/+20%来自YCB-V和LM-O标准基准，方向可信但别直接外推到生产环境。

原文：Pose Anything Anywhere: Model-free Object Poses from Arbitrary References

02 模型架构基础模型改不动，就在它后面挂个补丁

分割血管、裂缝这类曲线状目标有个老麻烦：它们在画面里又细又稀，拓扑还脆——一个局部小错就能让一根血管断成两截。现在的管线又越来越依赖强但「改不动」的基础编码器，重训backbone既贵又不现实。PEPA没去碰backbone，而是在冻结的编码器之后挂一个轻量适配器，专治两个具体环节：上采样时细结构恢复不全（重建瓶颈），以及二值化时阈值卡不准（决策瓶颈）。它用一种沿目标走向连续采样的「蛇形上采样」补回细长结构，再用一个可微的自适应阈值替代硬二值化。五个医疗和工业benchmark上，拓扑连通性指标(clDice)的提升普遍大于区域重叠(IoU)的提升——说明它修的主要是「断不断」而不是「准不准」，这正是曲线分割最在意的地方。代价是约0.26M额外参数，几乎可以忽略。

不重训基础模型，靠后置plug-in给特定难任务补能力，是面对「改不动的backbone」时的务实路线clDice涨幅大于IoU说明收益集中在拓扑连续性，对血管、裂缝这种断了就废的任务才有意义0.26M参数的开销极低，但只看了摘要，泛化到自己的任务还需在自己的数据上验证。

原文：From Reconstruction to Decision: A Post-Encoder Plug-in Adapter for Curvilinear Segmentation

03 多模态模型说在看图，其实在背语料

视觉语言模型有个尴尬的毛病：嘴上一步步分析图片，实际推理时却在吃语言先验，图里的证据根本没盯住——长链推理越长，这种「幻觉漂移」越严重。CFPO的诊断切中要害：主流RL范式（如GRPO）只奖励答对，没机制逼模型真的依赖视觉。它的做法是构造一个「把关键视觉线索抹掉」的反事实状态，然后逼模型在有图和没图之间拉开预测差距——如果抹掉图答案不变，说明模型压根没在看图。好处是能直接挂在GRPO、DAPO上，不需要额外的奖励模型或标注。比标准RL基线提升3.17%-6.25%，比已有的感知增强方法PAPO高1.32%-2.13%——诊断站得住，但收益偏小，关键的grounding硬指标摘要里被截断了，得看全文才知道是真治住了幻觉还是只刷高了准确率。

VLM的「看图推理」常是假象，模型靠语言先验蒙答案而非真盯证据CFPO用「抹掉图看答案变不变」的反事实信号补上因果约束，且能直接挂在现有RL流程上提升幅度个位数百分点，问题诊断比数字更有价值，做多模态grounding的团队值得看它的硬指标。

原文：CFPO: Counterfactual Policy Optimization for Multimodal Reasoning

也值得关注

物理驱动的3DGS编辑，把被忽略的温度也加进来 图像生成MeGAS做热力学动态高斯泼溅，给需要更真实物理交互的渲染/仿真场景多一个维度。链接

隐式神经表示在「抓细节」和「去噪」之间给个自适应旋钮 模型架构这篇用阻尼振荡做谱门控，化解周期激活记噪声、紧致激活又过度平滑的老两难。链接

今日观察

今天有两篇放在一起会愣一下：PANY在给没见过的物体估6D姿态，曲线分割那篇PEPA在分血管和裂缝，一个搞机器人抓取、一个搞医疗工业图像，业务上毫无交集。但翻到方法那一页，两支队伍的第一个决定是一样的——都明确不去碰那个又强又重的基础模型。PANY拒绝CAD和重onboarding，改成几张参考图驱动；PEPA拒绝重训backbone，改成在冻结编码器后面挂一个0.26M的plug-in。这不是什么「今天的趋势」，就是两次恰好同向的工程取舍：当强基础模型既贵又改不动，给它外面套一层薄的，往往比撬开它更划算。值得记的是这层「薄」该薄在哪——PANY薄在数据准备侧（换输入形态），PEPA薄在表示加工侧（换输出环节），都没动中间那块重的。下次你接一个新任务、又有一个强但难调的底座时，先别急着想怎么微调它，花十分钟列一下：这个任务真正缺的那点能力，能不能用一个加在它前面或后面的轻量模块补上？