Kimi K2.5开源,Agent Swarm框架让多Agent并行延迟降4.5倍

今日概览

  • Kimi K2.5开源,Agent Swarm框架让多Agent并行延迟降4.5倍,月之暗面发布多模态Agent模型,文本视觉联合训练+自组织并行调度,coding/vision/reasoning多项SOTA
  • 把源代码截图喂给视觉模型,token数压缩19倍且简单任务准确率几乎不降。CodeOCR发现瓶颈不在OCR精度,而在VLM的代码语义推理能力
  • LLM的Chain-of-Thought其实没有全局规划能力:探针实验揭示模型只能「看到」后续2-3步,长推理链靠局部贪心而非深谋远虑
  • 微调、LoRA、activation steering看似不同,浙大团队发现三者底层数学机制是同一个东西。「偏好-效用」之间存在可预测的权衡

重点关注

01 Agent 月之暗面把多Agent调度做成了自组织系统

Agent系统的一个核心瓶颈是编排——多个子Agent怎么分工、怎么并行、出错了怎么容错?大多数方案依赖人工定义的DAG或中心调度器。Kimi K2.5走了不同的路:Agent Swarm框架让模型自己把复杂任务分解为异构子问题,动态分配给不同Agent并行执行,延迟比单Agent基线降低最高4.5倍。模型本身是一个多模态Agent模型,核心训练思路是文本和视觉的联合优化——包括joint pre-training、zero-vision SFT(纯文本SFT也能提升视觉能力)、以及联合RL。在coding、vision、reasoning、agentic任务上达到多项SOTA,模型权重已开源。

Agent Swarm是自组织式多Agent编排,不需要人工定义工作流文本-视觉联合训练的思路说明多模态能力可以互相增强而非互相拖累开源权重意味着社区可以直接复现和迭代

02 代码智能 把代码截成图片喂给模型,居然比当文本读更高效?

LLM处理源代码有一个很实际的问题:代码越多token越长,计算成本线性增长。CodeOCR提出了一个反直觉的思路——干脆把代码渲染成图片,让视觉语言模型(VLM)「看」代码而不是「读」代码。一张截图可以把相同内容的token数压缩到原来的1/19。团队在12个代码理解任务上测试了14个主流VLM,发现在简单任务(代码摘要、clone detection)上图片模式几乎不损失准确率,但在需要精确推理的复杂任务(如漏洞检测)上仍有明显差距。关键发现是瓶颈不在「看不清代码」,而在视觉模型对代码语义的推理能力本身。

代码理解的token压缩可以走视觉路线,19倍压缩对超长代码库场景很有吸引力当前VLM的代码推理能力是瓶颈,不是OCR精度做代码分析工具的团队值得关注这个路线和文本路线的互补性

03 推理 CoT推理没有你以为的那么深谋远虑

大家习惯性地觉得LLM写出的长推理链是在做「规划」——先想好整体思路,再一步步推导。但事实真的如此吗?这项研究用probing实验直接去测LLM内部状态中的「规划视野」。结论令人清醒:模型在生成CoT时的latent planning只覆盖后续2-3步,距离全局规划差得很远。换句话说,模型写出的那些看似有条理的推理链,更像是局部贪心搜索——每一步做出当下最合理的选择,而不是真的有一个全局蓝图。这也解释了为什么LLM在需要长距离规划的任务上经常「走偏」。

CoT的规划能力被高估了,模型的实际规划视野只有2-3步长推理链的质量靠的是局部决策的质量而非全局规划这对如何设计prompt engineering和Agent系统有直接启示——与其依赖模型自己规划,不如外部拆分步骤

04 可解释性 微调、LoRA、activation steering——其实都是同一件事

控制LLM行为的手段越来越多:直接微调权重、LoRA低秩适配、activation steering(在推理时直接修改激活值)。这三类方法通常被当作完全不同的技术路线来研究。浙大团队提出了一个统一框架:三者本质上都是由控制信号引发的动态权重更新,数学形式可以放进同一个表达式。在这个框架下,团队引入了「偏好-效用」分析——偏好是模型向目标概念偏移的程度,效用是输出仍然连贯合理的程度。两者存在可预测的权衡:控制力度越强,偏好越高但效用越低。从activation manifold的视角看,效用下降主要发生在干预把表示推离了模型「有效生成流形」的时候。基于此分析,团队提出的SPLIT方法在提升偏好的同时更好地保持了效用。

微调、LoRA、steering的数学本质统一了,方便跨方法比较和选择偏好-效用权衡是可预测的,不需要每次都凭经验调参做模型对齐和行为控制的团队可以用这个框架系统地评估不同干预方案
Kimi K2.5开源,Agent Swarm框架让多Agent并行延迟降4.5倍

也值得关注

05
仓库级代码理解有了通用表示框架 AgentRPG-Encoder把代码仓库的理解和生成看作互逆过程,用规划图编码仓库结构,生成Agent和理解Agent共享同一表示。链接
06
图片生成和编辑不该分开做 图像生成UniReason用世界知识增强的推理链把文生图和图片编辑统一为连贯的推理步骤,两个方向互相增强。链接
07
视觉奖励模型终于支持个性化偏好了 图像生成UnifiedReward-Flex不再假设「一刀切」的审美标准,而是根据上下文动态构建评估维度,接入GRPO后图像和视频生成质量均有提升。链接
08
图像编辑模型真的能理解草图指令吗? 评测VIBE基准测试了17个模型对视觉指令的跟随能力,闭源模型领先但任务难度上升后表现急剧下降,视觉指令理解还是早期阶段。链接
09
多图理解的跨图信息泄漏有了零成本修复 多模态放大delimiter token的hidden states就能显著减少图片间的信息串扰,Mantis/MuirBench等多图基准全面提升,不需要额外训练。链接
10
视觉搜索+文本搜索的联合评测终于有了 检索Vision-DeepResearch Benchmark专门测试多模态模型在需要同时搜索图片和文本才能回答的问题上的能力,现有模型表现不及预期。链接

今日观察

今天的论文呈现出一个共同趋势:打破人为的技术边界。Kimi K2.5打破文本和视觉的训练隔阂,CodeOCR打破代码必须当文本处理的假设,Why Steering Works打破模型控制方法之间的理论壁垒,UniReason打破生成和编辑的任务边界。而CoT规划视野的发现则给了所有人一个提醒——模型的能力边界也需要诚实面对。做Agent系统的团队尤其值得注意:与其指望模型自己做长距离规划,不如在架构层面把规划拆成2-3步的局部决策链。