医疗AI、科学Agent、机器人VLA：垂直领域正在成为AI的主战场

今日概览

医疗多模态模型开始超越GPT-4o级闭源系统，MedXIAOHE用实体感知预训练+RL推理训练打通了从罕见病到长报告生成的全链路
小米开源机器人VLA模型，消费级GPU上实现实时双臂操控，从训练到部署的异步执行设计是关键
科学工具调用是Agent的硬伤。SciAgentGym造了1780个领域工具做压测，8B模型微调后反超235B
RL微调让VLM的benchmark分数上去了，但推理链的「忠实度」却在下降——准确率和可靠性的trade-off浮出水面

重点关注

01 多模态医疗AI的「全能选手」长什么样？

医疗多模态模型面临一个独特困境：知识覆盖面要广（几千种罕见病都不能漏），推理深度要够（复杂诊断需要多步推理），输出还得可靠（长报告不能编造）。以前的模型通常只擅长其中一两项。MedXIAOHE的做法是分阶段解决：先用实体感知的持续预训练扩充知识面，把异质医学语料按实体组织起来填补长尾缺口；然后通过RL和工具增强训练让模型学会多步诊断推理，每步决策都有可验证的痕迹；最后加入用户偏好对齐和证据锚定来控制幻觉。在多个医学benchmark上超过了领先的闭源多模态系统。这套「知识扩充→推理强化→可靠性兜底」的三阶段路线，对其他垂直领域的多模态模型开发也有参考价值。

实体感知预训练解决医学长尾知识覆盖RL+工具增强实现可验证的多步诊断推理三阶段训练框架可迁移到其他专业领域

原文：MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

02 机器人消费级GPU跑实时机器人控制，小米怎么做到的？

VLA模型（视觉-语言-动作模型）的实际部署有一个绕不开的问题：推理延迟。模型生成下一步动作的时间如果超过控制周期，机器人就会卡顿甚至失控。Xiaomi-Robotics-0的核心设计是异步执行——训练阶段就让模型习惯「在执行上一步动作的同时预测下一步」，部署时再精心对齐相邻动作块的时间戳，确保动作连贯不断裂。模型先在大规模跨形态数据上预训练获得通用动作生成能力，再针对目标任务做后训练。实测在消费级GPU上就能流畅跑双臂精细操控任务，代码和权重已开源。对想在真实硬件上落地VLA的团队来说，这套异步训练+部署对齐的方案比单纯追求更大模型更务实。

异步执行设计从训练阶段就解决推理延迟问题消费级GPU可部署，降低机器人AI的硬件门槛代码权重开源，直接可复现

原文：Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

03 Agent 科学工具链这么长，Agent走几步就迷路了

让AI Agent帮科学家做实验、跑分析听起来很美，但现实是：科学工作流涉及大量领域特定的工具和多步串联操作，现有Agent在这上面表现很差。SciAgentGym做了一次系统性压测——4个自然科学学科、1780个领域工具、从单步操作到长链工作流的分级评估。结果显示GPT-5在简单任务上有60.6%的成功率，但多步工作流一拉长就跌到30.9%。有意思的是作者提出的SciForge数据合成方法，把工具的调用关系建模为依赖图来生成训练轨迹，微调出的SciAgent-8B竟然超过了体量大30倍的Qwen3-VL-235B，而且还展现出跨学科的正迁移。这说明科学Agent的瓶颈不在模型大小，而在训练数据能不能教会模型理解工具间的逻辑依赖。

多步科学工具调用是当前Agent的系统性短板依赖图感知的训练数据合成是关键突破口8B微调模型超越235B，领域适配比堆参数更有效

原文：SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

04 训练优化 RL微调的隐藏代价：分数上去了，推理链却不可信了

RL微调让VLM在视觉推理benchmark上涨分了，但有人仔细检查了推理链本身的质量。结论不太乐观：简单的文本干扰——比如加一段误导性的caption或错误的CoT——就能让模型表现大幅下滑。更关键的发现是，RL微调制造了一个准确率-忠实度trade-off——benchmark分数在涨，但CoT推理链与实际视觉证据的对齐度在降。作者尝试了对抗增强和忠实度感知奖励两个修复方案，前者能提升鲁棒性但不能阻止忠实度漂移，后者能恢复对齐但跟对抗增强组合时反而学会了捷径策略。这给所有在做VLM RL微调的团队敲了个警钟：只看准确率不够，推理链的忠实度需要独立评估。

RL微调VLM存在准确率-忠实度的隐性trade-off对抗增强和忠实度奖励各有局限，目前没有银弹评估RL微调效果时应同时检查推理链质量

原文：On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

也值得关注

GeoGuessr式的地理定位，AI也能像人类专家一样逐步推理了 AgentGeoAgent用地理专家标注的CoT数据+地理相似度奖励训练，多粒度定位超越现有VLM。链接

视频理解的token开销砍掉93%，靠的不是压缩而是换信号源 多模态CoPE-VideoLM直接利用视频编解码器的运动向量和残差帧替代关键帧编码，首token延迟降低86%。链接

100万条视频instruction数据，音频和视觉终于一起标注了 多模态ASID-1M提供细粒度的音视觉结构化标注，训练出的Captioner与Gemini-3-Pro打平，幻觉明显减少。链接

CoT太长不是能力强，是在浪费token 推理CRT用约束优化框架修剪冗余推理步骤，token用量减少的同时准确率不掉，还能输出一系列不同详细程度的checkpoint。链接

扩散语言模型做文档重排序，不比自回归差 检索DiffuRank利用dLLM的并行解码和灵活生成顺序，在reranking任务上达到甚至超越同等规模自回归模型。链接

RL对齐扩散模型和Flow Matching的统一框架来了 训练优化Flow-Factory把GRPO等算法跨Flux、Qwen-Image、WAN视频模型统一，支持多奖励训练和分布式部署。链接

Visual RAG的多向量检索贵得离谱？不用重训就能降4倍 检索Visual RAG Toolkit用免训练的空间池化把每页的向量从数千压到数十，QPS提升约4倍，NDCG几乎不掉。链接

关系数据库上的深度学习终于有了大规模benchmark 评测Stanford的RelBench v2扩展到11个数据集2200万行，引入自动补全任务和70+外部数据库，关系建模稳定超越单表基线。链接

医学VLM连「没有」和「有」都分不清 安全对齐NAST用因果追踪找到处理否定的关键层，按因果贡献调节学习率做微调，不伤通用对齐就能修复否定理解。链接

Mamba为什么能学会过滤噪声？第一份理论分析来了 模型架构对选择性SSM的泛化和学习动力学做了非渐近分析，证明门控向量会自动对齐有类别区分力的特征。链接

今日观察

今天有一个明显的信号：AI正在加速从通用能力竞赛转向垂直领域深耕。医疗诊断（MedXIAOHE）、科学实验（SciAgentGym）、机器人操控（Xiaomi-Robotics-0）、地理推理（GeoAgent）——四个截然不同的领域，但解题思路高度一致：用领域专家的知识结构重新组织训练数据和奖励信号。尤其是SciAgent-8B用依赖图合成数据就超过235B通用模型这个结果，说明垂直领域的数据工程可能比堆参数更有效。做行业应用的团队值得重新审视自己的数据资产——领域know-how如何转化为训练信号，可能比选哪个基座模型更重要。