多模态深度研究不再是闭源大模型的专利

今日概览

多模态深度研究不再是闭源大模型的专利，Vision-DeepResearch通过多轮、多实体、多尺度的视觉+文本搜索，在开源模型上超越GPT-5和Gemini-2.5-Pro
MoE模型的扩展方向可能搞反了。扩大embedding比增加expert更划算，LongCat-Flash-Lite用68.5B参数（激活仅3B）在代码和Agent任务上超越同规模MoE
LLM Agent在理想场景下表现不错，但一遇到模糊指令就大面积翻车：CAR-bench测试显示前沿推理模型在歧义任务上的一致通过率不到50%
动态物体操作不需要大模型，0.4B参数就够了。DynamicVLA用连续推理和时间对齐的动作流让机器人抓住运动中的目标

重点关注

01 多模态开源模型做「深度研究」能打赢闭源大模型吗？

当前的多模态搜索框架有个隐含假设：用一张图和几条文本查询就能找到答案。但现实场景中图片里有大量无关信息，一次检索根本不够。Vision-DeepResearch把「深度研究」范式搬到了多模态领域——模型可以进行几十轮推理、上百次搜索引擎交互，从多个图片区域和文本源逐步聚合证据。训练方式也不是简单的prompt工程，而是冷启动监督+RL训练，把深度搜索能力内化到模型权重中。结果是在多模态研究任务上超越了基于GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet构建的工作流。代码即将开源。

多模态深度研究需要多轮、多实体、多尺度的搜索策略RL训练可以把搜索能力内化到模型中而非依赖外部工作流开源方案超越闭源工作流说明架构设计比底座模型更关键

原文：Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

02 模型架构 MoE该扩expert还是扩embedding？答案可能和直觉相反

Mixture-of-Experts已经是稀疏扩展的标准路线，但收益递减和系统瓶颈越来越明显。这篇论文探索了一个正交方向：把参数预算花在embedding层而非expert层。LongCat-Flash-Lite是一个68.5B参数的模型，激活参数仅约3B，其中超过30B参数分配给了embedding。听起来反直觉，但在同等激活参数下，它不仅超过了等参MoE基线，在Agent和代码任务上还表现出了超预期的竞争力。配合投机解码，这种稀疏性可以直接转化为推理加速。

embedding scaling是MoE之外的另一条稀疏扩展路线30B+参数放在embedding层并不浪费，反而在特定任务上更强对推理成本敏感的团队值得关注这种「大模型小激活」的设计思路

原文：Scaling Embeddings Outperforms Scaling Experts in Language Models

03 评测前沿推理模型为什么搞不定车载语音助手？

现有Agent基准测试的问题是太理想化——指令清晰、工具齐全、信息完整。但真实用户不会说「导航到北京市朝阳区XX路XX号」，他们会说「去上次那个餐厅」。CAR-bench针对这种真实场景设计了58个互联工具和两类刁钻任务：歧义消解（用户指令不完整，需要追问或内部查询）和幻觉检测（缺少工具或信息时能否承认做不到）。结果很残酷：即使是前沿推理模型，在歧义消解任务上的一致通过率也不到50%，要么不追问就直接行动，要么在缺少工具时编造信息来满足用户。

「偶尔做对」和「稳定做对」之间的差距才是Agent落地的核心挑战模型在缺少工具时倾向于编造而非拒绝Agent评测需要从理想场景走向真实的模糊和不完整场景

原文：CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

04 机器人 0.4B参数能让机器人抓住飞来的物体吗？

VLA（Vision-Language-Action）模型擅长静态抓取，但遇到运动中的物体就力不从心——感知延迟、缺乏时间预判、控制不够连续。DynamicVLA从三个层面解决问题：用卷积视觉编码器做快速多模态推理（0.4B参数保证速度）；推理和执行重叠进行（Continuous Inference），降低感知-行动延迟；通过Latent-aware Action Streaming在时间维度上对齐感知和动作执行。配套发布的DOM基准包含20万合成episodes和2000个真实场景数据，实现了无需遥操作的快速数据收集。

动态操作需要推理和执行同时进行而非交替进行0.4B参数表明速度在具身智能中比模型大小更重要不需要遥操作的数据收集流水线对规模化训练至关重要

原文：DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation

也值得关注

7%的数据就能追平全量训练效果 训练优化MMFineReason用难度感知过滤从180万条视觉推理数据中筛出12.3万条，4B模型超越8B-Thinking模型。链接

自动构建可验证环境来训练tool-use Agent AgentASTRA结合SFT与RL，在多个Agent基准上达到SOTA，训练流水线和模型已开源。链接

文本OCR和图表解析终于统一了 多模态OCRVerse用SFT+RL两阶段训练，首次在端到端模型中统一处理文本文档和图表/网页等视觉密集型内容。链接

把语义相似的token合并后再送入MoE 推理加速ConceptMoE在预填充阶段加速175%，解码加速117%，且不牺牲性能。链接

只用预训练数据0.01%就能把Transformer蒸馏成混合架构 模型架构HALO将Qwen3转换为RNN-注意力混合模型HypeNet，长上下文性能反而更好。链接

用博弈论给数据集蒸馏找到最优样本 训练优化InfoUtil用Shapley Value做信息量最大化、梯度范数做样本选择，在ImageNet-1K上比SOTA提升6.1%，被ICLR 2026接收。链接

训练数据中的LaTeX和XML是可解释电路的催化剂 可解释性MDA用影响函数把LLM中的可解释单元追溯到具体训练样本，并首次提供了归纳头与上下文学习之间的因果证据。链接

LLM的表征在上下文中会自动「拉直」，但只在特定任务类型中 可解释性DeepMind用Gemma 2发现持续预测任务中轨迹越来越直、预测越来越准，但少样本任务中这种效应消失。链接

今日观察

今天至少三篇论文在挑战「越大越好」的直觉。LongCat-Flash-Lite把参数往embedding而非expert堆，DynamicVLA用0.4B模型做到了动态操作，MMFineReason只用7%的数据就逼近全量效果。共同指向的规律是：参数和数据的分配策略可能比绝对规模更重要。正在做模型训练和数据配比的团队，值得重新审视自己的资源分配是不是落入了「均匀撒胡椒面」的惯性。