开源搜索Agent逆袭,Agent Skills神话破灭

今日概览

  • 1.17万条合成数据训出的开源搜索Agent击败闭源对手,OpenSeeker在BrowseComp上几乎翻倍第二名,数据和模型全开源,Deep Research不再是大厂专利。
  • 跨层注意力让深层信息不再被稀释:MoDA让每个注意力头同时关注当前层和前层的KV,仅3.7%额外计算换来下游任务平均+2.11%,已开源。
  • 给Agent注入技能听起来很美,实测39/49个技能零提升。SWE-Skills-Bench首次严格评估Agent Skills实际效用,平均增益仅+1.2%。
  • 一位数学家零代码10天完成等离子体定理的Lean 4形式化,AI辅助数学研究的完整工作流首次被公开复盘,成本$200。

重点关注

01 Agent 1万条数据就够了:开源搜索Agent凭什么碾压闭源?

Deep Search能力已成为LLM Agent标配,但高性能搜索Agent一直被大厂垄断——缺的不是模型,是高质量训练数据。OpenSeeker直接解决了这个问题:通过反向工程web知识图谱自动合成多跳推理任务,配合回顾式总结去噪轨迹质量,仅用1.17万条合成数据做SFT就在BrowseComp上拿到29.5%,几乎翻倍第二名DeepDive的15.3%。更意外的是,它甚至在BrowseComp-ZH上超过了用大规模继续预训练+SFT+RL训练的通义DeepResearch(48.4% vs 46.7%)。数据和权重全部开源,对想自建搜索Agent的团队来说,数据合成管线可能比模型本身更有价值。

1.17万条合成SFT数据达到前沿搜索Agent水平,数据效率是核心竞争力数据合成管线(拓扑扩展+实体混淆+回顾去噪)对自建团队的参考价值大于模型本身全开源降低了搜索Agent的入场门槛

02 模型架构 模型越深信号越弱?让注意力跨层「回头看」

LLM越堆越深,但深层有个老问题:浅层形成的有用特征会被反复residual更新逐渐稀释,深层想用却捡不回来。MoDA(Mixture-of-Depths Attention)的做法很直觉——让每个注意力头不只看当前层的KV,还能同时关注前面层的KV。更关键的是工程实现:他们设计了硬件友好的算法解决非连续内存访问问题,在64K序列长度下达到FlashAttention-2效率的97.3%。1.5B参数模型上,平均perplexity降了0.2,下游任务平均提升2.11%,额外计算开销仅3.7%。附带发现:MoDA配post-norm比pre-norm效果更好。代码已开源,对做深层模型架构的团队是一个值得纳入的设计原语。

跨层attention让深层复用浅层特征,直接缓解信号稀释问题硬件友好实现达到FlashAttention-2效率的97.3%,实用门槛低仅3.7%额外FLOPs换来2.11%下游任务提升,性价比突出

03 代码智能 Agent Skills听起来很美,实测39个技能零提升

「给Agent注入技能包」已成为增强LLM编程能力的流行做法,但效果到底怎样?SWE-Skills-Bench给出了第一个严格的实测答案:49个公开Agent Skills配合真实GitHub仓库,565个任务实例覆盖6个子领域。结果相当冷静——39个技能零pass率提升,平均增益仅+1.2%。Token开销从略有节省到暴增451%不等,pass率纹丝不动。只有7个高度专业化的技能产生了有意义的提升(最高+30%),还有3个因为版本不匹配的指导与项目上下文冲突,反而降低了表现(最高-10%)。Agent Skills是窄干预,有效性高度依赖领域匹配度、抽象层级和上下文兼容性。下次往Agent里塞技能包之前,先做消融实验。

49个Agent Skills中39个在真实SWE任务中零提升,平均增益仅+1.2%有效的技能高度依赖领域匹配和上下文兼容,泛用型技能基本无效版本不匹配的技能指导反而降低表现,盲目注入不如不注入

04 AI for Science 零代码、10天、$200:AI辅助数学形式化的完整复盘

Vlasov-Maxwell-Landau方程组的平衡态刻画——正经的等离子体物理定理。一位数学家用AI完成了它的完整Lean 4形式化,全程没写一行代码。流程值得细看:Gemini DeepThink从猜想生成证明,Claude Code将自然语言证明翻译为Lean代码,专用证明器Aristotle关闭了111个引理,最后Lean内核验证通过。全过程10天、229个人类prompt、213个git commit、$200。最耐人寻味的细节——形式化比对应的数学论文终稿还先完成了。作者详细记录了AI的失败模式:假设蠕变(hypothesis creep)、定义对齐bug、Agent回避行为。整个开发过程公开存档,对想用AI辅助严格推理的团队是一份难得的实战报告。

完整的AI辅助形式化工作流:推理模型生成证明→编码工具翻译→专用证明器关引理→内核验证人类角色是监督者而非编码者,229个prompt零代码AI失败模式的详细记录对实际使用有直接参考价值
开源搜索Agent逆袭,Agent Skills神话破灭

也值得关注

05
人-场景交互重建直接部署到人形机器人 多模态HSImul3R用物理仿真器做双向优化监督,弥合视觉重建与物理引擎之间的鸿沟(141 HF upvotes)。原文
06
只用2D图片训练就能编辑视频DiT 视频生成ViFeEdit通过架构重参数化解耦空间独立性,不需要任何视频训练数据。原文
07
首尔实景城市级World Model 视频生成SWM用检索增强把视频生成锚定在真实街景,轨迹跨越数百米仍保持空间一致性(121 HF upvotes)。原文
08
让代码模型和测试模型对抗进化 代码智能Code-A1的架构分离消除了自我串通风险,白盒测试生成变得安全可用。原文
09
「Wait」不是推理的关键,不确定性外化才是 推理信息论框架统一解释LLM推理中的「Aha moment」,纯程序性推理会信息停滞。原文
10
464人红队竞赛:所有前沿模型都能被间接注入攻击 安全对齐Claude Opus 4.5最抗攻(0.5%成功率),Gemini 2.5 Pro最脆弱(8.5%),能力和鲁棒性弱相关。原文
11
幻觉检测重新定义为认知轨迹的几何异常 可解释性信息论探针把VLM生成映射到低维认知状态空间,弱监督下仍达SOTA。原文
12
Aleph Alpha发布70B无tokenizer模型 模型架构HAT架构直接在字节级工作,复用Llama 3.1骨干,德英双语都超过原版Llama。原文
13
统一多模态模型推理加速1.78-2.01x,无需训练 推理加速FlashU针对生成和理解任务分别定制优化策略(CVPR 2026)。原文

今日观察

OpenSeeker用1.17万条合成数据打败了重度RL训练的闭源搜索Agent,SWE-Skills-Bench发现49个Agent技能包有39个完全无效。两个故事指向同一个结论:数据质量和任务匹配度远比数据量和功能堆叠重要

OpenSeeker赢在合成数据的设计——拓扑扩展保证覆盖度,实体混淆控制复杂度,回顾去噪提升轨迹质量。失败的Agent Skills输在泛用性假设——通用技能包碰上具体项目上下文,要么无关要么冲突。做Agent的团队与其追求「全面武装」,不如投入精力在少量高匹配度数据和技能的精细设计上。