开源搜索Agent逆袭，Agent Skills神话破灭

今日概览

1.17万条合成数据训出的开源搜索Agent击败闭源对手，OpenSeeker在BrowseComp上几乎翻倍第二名，数据和模型全开源，Deep Research不再是大厂专利。
跨层注意力让深层信息不再被稀释：MoDA让每个注意力头同时关注当前层和前层的KV，仅3.7%额外计算换来下游任务平均+2.11%，已开源。
给Agent注入技能听起来很美，实测39/49个技能零提升。SWE-Skills-Bench首次严格评估Agent Skills实际效用，平均增益仅+1.2%。
一位数学家零代码10天完成等离子体定理的Lean 4形式化，AI辅助数学研究的完整工作流首次被公开复盘，成本$200。

重点关注

01 Agent 1万条数据就够了：开源搜索Agent凭什么碾压闭源？

Deep Search能力已成为LLM Agent标配，但高性能搜索Agent一直被大厂垄断——缺的不是模型，是高质量训练数据。OpenSeeker直接解决了这个问题：通过反向工程web知识图谱自动合成多跳推理任务，配合回顾式总结去噪轨迹质量，仅用1.17万条合成数据做SFT就在BrowseComp上拿到29.5%，几乎翻倍第二名DeepDive的15.3%。更意外的是，它甚至在BrowseComp-ZH上超过了用大规模继续预训练+SFT+RL训练的通义DeepResearch（48.4% vs 46.7%）。数据和权重全部开源，对想自建搜索Agent的团队来说，数据合成管线可能比模型本身更有价值。

1.17万条合成SFT数据达到前沿搜索Agent水平，数据效率是核心竞争力数据合成管线（拓扑扩展+实体混淆+回顾去噪）对自建团队的参考价值大于模型本身全开源降低了搜索Agent的入场门槛

原文：OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data

02 模型架构模型越深信号越弱？让注意力跨层「回头看」

LLM越堆越深，但深层有个老问题：浅层形成的有用特征会被反复residual更新逐渐稀释，深层想用却捡不回来。MoDA（Mixture-of-Depths Attention）的做法很直觉——让每个注意力头不只看当前层的KV，还能同时关注前面层的KV。更关键的是工程实现：他们设计了硬件友好的算法解决非连续内存访问问题，在64K序列长度下达到FlashAttention-2效率的97.3%。1.5B参数模型上，平均perplexity降了0.2，下游任务平均提升2.11%，额外计算开销仅3.7%。附带发现：MoDA配post-norm比pre-norm效果更好。代码已开源，对做深层模型架构的团队是一个值得纳入的设计原语。

跨层attention让深层复用浅层特征，直接缓解信号稀释问题硬件友好实现达到FlashAttention-2效率的97.3%，实用门槛低仅3.7%额外FLOPs换来2.11%下游任务提升，性价比突出

原文：Mixture-of-Depths Attention

03 代码智能 Agent Skills听起来很美，实测39个技能零提升

「给Agent注入技能包」已成为增强LLM编程能力的流行做法，但效果到底怎样？SWE-Skills-Bench给出了第一个严格的实测答案：49个公开Agent Skills配合真实GitHub仓库，565个任务实例覆盖6个子领域。结果相当冷静——39个技能零pass率提升，平均增益仅+1.2%。Token开销从略有节省到暴增451%不等，pass率纹丝不动。只有7个高度专业化的技能产生了有意义的提升（最高+30%），还有3个因为版本不匹配的指导与项目上下文冲突，反而降低了表现（最高-10%）。Agent Skills是窄干预，有效性高度依赖领域匹配度、抽象层级和上下文兼容性。下次往Agent里塞技能包之前，先做消融实验。

49个Agent Skills中39个在真实SWE任务中零提升，平均增益仅+1.2%有效的技能高度依赖领域匹配和上下文兼容，泛用型技能基本无效版本不匹配的技能指导反而降低表现，盲目注入不如不注入

原文：SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?

04 AI for Science 零代码、10天、$200：AI辅助数学形式化的完整复盘

Vlasov-Maxwell-Landau方程组的平衡态刻画——正经的等离子体物理定理。一位数学家用AI完成了它的完整Lean 4形式化，全程没写一行代码。流程值得细看：Gemini DeepThink从猜想生成证明，Claude Code将自然语言证明翻译为Lean代码，专用证明器Aristotle关闭了111个引理，最后Lean内核验证通过。全过程10天、229个人类prompt、213个git commit、$200。最耐人寻味的细节——形式化比对应的数学论文终稿还先完成了。作者详细记录了AI的失败模式：假设蠕变（hypothesis creep）、定义对齐bug、Agent回避行为。整个开发过程公开存档，对想用AI辅助严格推理的团队是一份难得的实战报告。

完整的AI辅助形式化工作流：推理模型生成证明→编码工具翻译→专用证明器关引理→内核验证人类角色是监督者而非编码者，229个prompt零代码AI失败模式的详细记录对实际使用有直接参考价值

原文：Semi-Autonomous Formalization of the Vlasov-Maxwell-Landau Equilibrium

也值得关注

人-场景交互重建直接部署到人形机器人 多模态HSImul3R用物理仿真器做双向优化监督，弥合视觉重建与物理引擎之间的鸿沟（141 HF upvotes）。原文

只用2D图片训练就能编辑视频DiT 视频生成ViFeEdit通过架构重参数化解耦空间独立性，不需要任何视频训练数据。原文

首尔实景城市级World Model 视频生成SWM用检索增强把视频生成锚定在真实街景，轨迹跨越数百米仍保持空间一致性（121 HF upvotes）。原文

让代码模型和测试模型对抗进化 代码智能Code-A1的架构分离消除了自我串通风险，白盒测试生成变得安全可用。原文

「Wait」不是推理的关键，不确定性外化才是 推理信息论框架统一解释LLM推理中的「Aha moment」，纯程序性推理会信息停滞。原文

464人红队竞赛：所有前沿模型都能被间接注入攻击 安全对齐Claude Opus 4.5最抗攻（0.5%成功率），Gemini 2.5 Pro最脆弱（8.5%），能力和鲁棒性弱相关。原文

幻觉检测重新定义为认知轨迹的几何异常 可解释性信息论探针把VLM生成映射到低维认知状态空间，弱监督下仍达SOTA。原文

Aleph Alpha发布70B无tokenizer模型 模型架构HAT架构直接在字节级工作，复用Llama 3.1骨干，德英双语都超过原版Llama。原文

统一多模态模型推理加速1.78-2.01x，无需训练 推理加速FlashU针对生成和理解任务分别定制优化策略（CVPR 2026）。原文

今日观察

OpenSeeker用1.17万条合成数据打败了重度RL训练的闭源搜索Agent，SWE-Skills-Bench发现49个Agent技能包有39个完全无效。两个故事指向同一个结论：数据质量和任务匹配度远比数据量和功能堆叠重要。

OpenSeeker赢在合成数据的设计——拓扑扩展保证覆盖度，实体混淆控制复杂度，回顾去噪提升轨迹质量。失败的Agent Skills输在泛用性假设——通用技能包碰上具体项目上下文，要么无关要么冲突。做Agent的团队与其追求「全面武装」，不如投入精力在少量高匹配度数据和技能的精细设计上。