今日概览
- Kimi K2.5开源,Agent Swarm框架让多Agent并行延迟降4.5倍,月之暗面发布多模态Agent模型,文本视觉联合训练+自组织并行调度,coding/vision/reasoning多项SOTA
- 把源代码截图喂给视觉模型,token数压缩19倍且简单任务准确率几乎不降。CodeOCR发现瓶颈不在OCR精度,而在VLM的代码语义推理能力
- LLM的Chain-of-Thought其实没有全局规划能力:探针实验揭示模型只能「看到」后续2-3步,长推理链靠局部贪心而非深谋远虑
- 微调、LoRA、activation steering看似不同,浙大团队发现三者底层数学机制是同一个东西。「偏好-效用」之间存在可预测的权衡
重点关注
01 Agent 月之暗面把多Agent调度做成了自组织系统
Agent系统的一个核心瓶颈是编排——多个子Agent怎么分工、怎么并行、出错了怎么容错?大多数方案依赖人工定义的DAG或中心调度器。Kimi K2.5走了不同的路:Agent Swarm框架让模型自己把复杂任务分解为异构子问题,动态分配给不同Agent并行执行,延迟比单Agent基线降低最高4.5倍。模型本身是一个多模态Agent模型,核心训练思路是文本和视觉的联合优化——包括joint pre-training、zero-vision SFT(纯文本SFT也能提升视觉能力)、以及联合RL。在coding、vision、reasoning、agentic任务上达到多项SOTA,模型权重已开源。
原文:Kimi K2.5: Visual Agentic Intelligence
02 代码智能 把代码截成图片喂给模型,居然比当文本读更高效?
LLM处理源代码有一个很实际的问题:代码越多token越长,计算成本线性增长。CodeOCR提出了一个反直觉的思路——干脆把代码渲染成图片,让视觉语言模型(VLM)「看」代码而不是「读」代码。一张截图可以把相同内容的token数压缩到原来的1/19。团队在12个代码理解任务上测试了14个主流VLM,发现在简单任务(代码摘要、clone detection)上图片模式几乎不损失准确率,但在需要精确推理的复杂任务(如漏洞检测)上仍有明显差距。关键发现是瓶颈不在「看不清代码」,而在视觉模型对代码语义的推理能力本身。
原文:CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
03 推理 CoT推理没有你以为的那么深谋远虑
大家习惯性地觉得LLM写出的长推理链是在做「规划」——先想好整体思路,再一步步推导。但事实真的如此吗?这项研究用probing实验直接去测LLM内部状态中的「规划视野」。结论令人清醒:模型在生成CoT时的latent planning只覆盖后续2-3步,距离全局规划差得很远。换句话说,模型写出的那些看似有条理的推理链,更像是局部贪心搜索——每一步做出当下最合理的选择,而不是真的有一个全局蓝图。这也解释了为什么LLM在需要长距离规划的任务上经常「走偏」。
原文:No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
04 可解释性 微调、LoRA、activation steering——其实都是同一件事
控制LLM行为的手段越来越多:直接微调权重、LoRA低秩适配、activation steering(在推理时直接修改激活值)。这三类方法通常被当作完全不同的技术路线来研究。浙大团队提出了一个统一框架:三者本质上都是由控制信号引发的动态权重更新,数学形式可以放进同一个表达式。在这个框架下,团队引入了「偏好-效用」分析——偏好是模型向目标概念偏移的程度,效用是输出仍然连贯合理的程度。两者存在可预测的权衡:控制力度越强,偏好越高但效用越低。从activation manifold的视角看,效用下降主要发生在干预把表示推离了模型「有效生成流形」的时候。基于此分析,团队提出的SPLIT方法在提升偏好的同时更好地保持了效用。
原文:Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics

也值得关注
今日观察
今天的论文呈现出一个共同趋势:打破人为的技术边界。Kimi K2.5打破文本和视觉的训练隔阂,CodeOCR打破代码必须当文本处理的假设,Why Steering Works打破模型控制方法之间的理论壁垒,UniReason打破生成和编辑的任务边界。而CoT规划视野的发现则给了所有人一个提醒——模型的能力边界也需要诚实面对。做Agent系统的团队尤其值得注意:与其指望模型自己做长距离规划,不如在架构层面把规划拆成2-3步的局部决策链。