$15跑出一篇论文,医疗agent仅28%

今日概览

Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。
OProver把compiler反馈loop挪进训练侧,失败轨迹+verifier修复直接当SFT数据,开源whole-proof prover里MiniF2F 93.3% Pass@32当前最佳一档。
CHI-Bench把policy密度、多角色、多轮中间交互三件事拼到同一条流水线评测,最好的agent配置只过28%,严格pass^3没人到20%。
CompactAttention冲着chunked prefill的workload缺口去——把2D block-sparse mask从执行计划降级为KV选择信号,128K context上attention拿到2.72倍加速且精度持平dense。

重点关注

01 Agent auto-research能跑了,但「敢部署」还差一截

自动化research的成本曲线已经过线——$15能跑出一篇完整论文,long-horizon agent可以接管文献综述、写代码、起草甚至模拟critique。但这份覆盖到2026年4月的综述把另一条曲线也画了出来:在科学压力下,前沿LLM仍会捏造结果、漏检错误、对novelty做不出可靠判断。作者把研究生命周期拆成Creation/Writing/Validation/Dissemination四阶段,得出的是阶段相关的结论——结构化、检索锚定、工具中介的环节AI做得扎实,真正novel的想法和research级实验仍然脆弱,生成的idea落实成代码后经常退化,research code也明显落后于pattern-matching benchmark上的表现。更值得警惕的是自动化程度提高反而会遮蔽而非消除失败模式,end-to-end全自动系统目前还达不到主流会议的接收门槛。考虑把agent塞进research workflow的团队,可以把这篇当成风险清单读——它给的不是技术菜谱,而是哪些环节能放手、哪些必须留人。

$15一篇论文已经技术可行,但integrity层未达标——「能做到」和「敢部署」中间还隔着一段距离任务可靠性是阶段相关的,结构化/检索锚定/工具中介的环节可托管,novel idea和research级实验需要留人自动化程度越高失败模式越难发现,这是把agent塞进workflow前最该警惕的点

原文:AI for Auto-Research: Roadmap & User Guide

02 推理把compiler反馈循环写进训练,而不是留在推理时

大多数agentic论文把外部反馈留给推理时的scaffold——模型生成、verifier评判、外层loop决定要不要重试。OProver的选择不同:迭代式post-training把这个循环挪进训练侧,每轮跑一遍agent proving,新验证通过的证明索引进检索库(累计1.77M条Lean语句、686万条compiler验证的证明),失败轨迹加上compiler反馈和修复当作SFT(监督微调)数据,剩下解不出的硬骨头交给RL。机制能跑通的前提是verifier又强又便宜——Lean的compiler恰好满足,失败信号可以直接驱动训练,模型自己的recovery策略被显式优化而不是靠推理时的外挂逻辑兜底。结果是开源whole-proof prover里当前最佳一档(Pass@32):MiniF2F 93.3%、ProverBench 58.2%、PutnamBench 11.3%。对手里有compiler、test suite或simulator这类硬verifier的团队,值得对照的设计是:与其在推理时拼scaffold复杂度,不如把recovery行为压进权重。

强verifier领域可以把agent loop挪进训练侧,失败轨迹+compiler反馈是天然的SFT资产compiler-in-loop能跑通的前提是verifier又强又便宜,Lean恰好满足,迁移到自家场景要先评估verifier成本开源whole-proof prover里MiniF2F 93.3% Pass@32为当前最佳一档

原文:OProver: A Unified Framework for Agentic Formal Theorem Proving

03 评测 agent benchmark离真实医疗流程,还差三件具体的事

常见agent基准测的是能不能完成单个任务,但真实企业场景里的失败往往不在单点能力上。CHI-Bench把三件之前评测里看不到的事拼到一条流水线上:policy density——1290+份医保和操作手册要现查现用、multi-role composition——同一任务里要切换医生/审核员/护士等角色、multilateral interaction——peer review和病人沟通本身是中间的多轮对话而不是终态输出。流水线跑在20个仿真医疗系统、87个MCP工具上,覆盖prior authorization、utilization management、care management三个域。30种agent配置里,最好的只过28%,严格pass^3没人到20%,把所有任务塞进单一session直接掉到3.8%。把agent部署到合规重的企业场景前,这条评测线比「能否完成单步」更接近真实失败模式。

政策密集查询、多角色切换、多轮中间对话三件事一起评,是当前agent benchmark的盲区最好28%、单session 3.8%,差距大到不像靠模型规模能补上合规重场景部署前,值得用这种长流程评测先把失败模式露出来。

原文:CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

04 推理加速稀疏attention优化方向和生产serving正在脱节

chunked prefill已经是生产serving的默认形态,但这一年大部分稀疏attention工作还按one-shot prefill的workload做优化,落到生产线上就对不上号。block-sparse kernel在长query上跑得飞快,可query被chunk size切碎后这层优势就没了;换条路用fine-grained模式搜索,又得在不断累积的KV cache上反复支付搜索代价。CompactAttention的思路是把2D block-sparse mask当成KV选择信号而不是直接执行计划,通过Q-block union和组内union把它转换成paged执行下的最小block table,选中的块原地访问、不再做显式拷贝。在LLaMA-3.1-8B-Instruct的128K context上,chunked prefill里attention拿到2.72倍加速,RULER精度保持在dense水平。对推理infra团队来说,这是个不需要凿穿现有serving栈就能接的稀疏方案。

学术界过去一年的稀疏attention优化目标和生产serving的chunked prefill workload有结构性错配CompactAttention把block-sparse mask从执行计划降级为KV选择信号,绕过chunked场景下query短、KV累积大的双重困境128K context上拿到2.72倍attention加速且精度持平dense,适合现有serving栈直接替换。

原文:CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

也值得关注

工具调用、电脑使用、多模态推理过去各自评测,这篇拼到一条流水线测真实工作流 Agent用真实专业任务逼出tool-using agent的端到端失败模式。链接

training-free的n-gram memory模块 模型架构给MoE和需要训memory embedding的方案外加一条plug-and-play路径。链接

自动生成抽象推理题,可形式验证那部分是关键 评测避开人工标注成本和memorization污染,精度评分不再被数据泄漏拖累。链接

SFT注入新知识不掉原能力 训练优化distribution-aligned self-distillation做到不依赖外部teacher,后训练不再用原能力换新能力。链接

GPU kernel优化agent的多轮工作流评测,带泛化到没见过配置的setting 代码智能把kernel agent从单点能力测试推到generalization-aware评测。链接

模型合并完再量化的expert-guided方案 推理加速把merging和quantization压成低资源部署的一道流水线。链接

今日观察

今天5篇agentic框架/benchmark(Auto-Research roadmap、OProver证明、CHI-Bench医疗、TOBench多模态工具、AgentKernelArena GPU kernel)沿一条verifier轴清晰地分成两类:硬verifier域(OProver、AgentKernelArena有compiler当ground truth,可以把agent loop挪进训练侧,让模型自身的recovery策略被显式优化);policy-rich工作流域(CHI-Bench、TOBench没有形式化verifier,只能用operational benchmark把整条流水线的失败模式测出来)。Auto-Research roadmap正好踩在中间——能生成不等于能验证,fabrication和novelty judgment是当前真正的卡点。串起来看,agent系统的下一个瓶颈不在模型能力,而在agent外面那层verification surface长什么样。对从业者的具体读法:手里有compiler/test suite/simulator的领域,值得对照OProver那种把loop拉进训练侧的做法,把失败轨迹+verifier反馈当SFT资产用;没有硬verifier的领域,CHI-Bench那种operational eval是该追的方向,先把multi-role切换、policy密集查询、多轮中间交互这些失败模式露出来再谈部署。下个迭代评审时盘一下:你们这条agent线挂的是哪一类verifier、训练侧能不能纳入对应的反馈信号、哪些失败模式还只能靠运行时scaffold去补?