今日概览
- 用领域专家的真实推理流程设计CoT监督,在医疗VQA中同时提升准确率和可追溯性,思路可迁移到任何需要结构化专业判断的垂直场景。CVPR接收
- 最少几个特征就能复现模型的拒绝决策:将溯因解释最小化问题转化为0-1整数规划,实际求解效率优于不保证最优的方法。方法限于线性模型,但问题框架对高风险人机协作有启发
- 训练时生成伪新类别样本来练习发现未知。 抛弃hash编码,用纯特征空间方法消除训练-推理目标错位,七个benchmark全类别准确率最高提升13.1%。CVPR接收
重点关注
01 推理 CoT的结构决定推理的天花板
Step-CoT用临床诊断的真实工作流——病灶定位→特征描述→诊断推理——来设计CoT的监督步骤,让每一步推理都有明确的专业依据和可追溯性,而不是让模型自由生成推理链。数据集基于1万多个真实临床病例和7万组VQA对,每条推理链都有专家标注的结构化中间步骤。训练框架引入了动态图结构聚焦机制,让模型学会区分哪些步骤是诊断关键、哪些是噪声——这比简单地把所有中间步骤等权重喂给模型更合理。实验显示准确率和可解释性同步提升,被CVPR接收。这个思路的迁移价值在于:任何需要专业判断的垂直领域(法律推理、金融分析、代码审查),都可以用领域专家的实际推理结构来替代自由格式CoT监督,而不是指望模型自己摸索出合理的推理路径。
原文:Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
02 可解释性 当模型说「我不确定」,用户最想知道的是「哪里不确定」
医疗诊断系统拒绝给出判断时,医生需要的不是「置信度不足」四个字,而是「哪几个指标导致了犹豫」。这篇来自xAI的工作定义了一个精确的问题:找到最少几个特征,就足以复现模型的拒绝决策——即溯因解释(abductive explanation)的最小化版本。对于被接受的样本,他们改进了已有的对数线性时间算法;对于被拒绝的样本,将问题转化为0-1整数线性规划。理论上这是NP难问题,但实验显示实际求解效率反而优于不保证最小化的线性规划方法。方法限于线性模型,离神经网络场景还有距离,但「用最少信息解释拒绝」这个问题定义本身,对高风险领域的人机协作界面设计有参考价值。
03 模型架构 用「创造」代替「记忆」:训练时生成伪新类别,推理时发现真正的未知
LTC的核心想法很直接:与其让模型训练时只学分类已知类别、推理时硬去发现新类别,不如在训练阶段就主动「创造」伪新类别样本来练习发现。具体做法是用一个轻量在线生成器(基于核能量最小化和熵最大化)在训练过程中持续合成伪样本,跟模型联合进化,成本几乎可以忽略——完全抛弃了OCD(即时类别发现)领域常用的hash编码,用纯特征空间的方式消除训练-推理目标错位。七个benchmark全面领先,全类别准确率提升1.5%到13.1%,CVPR接收。对电商分类、内容审核等需要持续适应新品类的部署场景,这条「先创造再识别」的技术路径值得关注。
原文:Learning through Creation: A Hash-Free Framework for On-the-Fly Category Discovery
