今日概览
- Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。
- OProver把compiler反馈loop挪进训练侧,失败轨迹+verifier修复直接当SFT数据,开源whole-proof prover里MiniF2F 93.3% Pass@32当前最佳一档。
- CHI-Bench把policy密度、多角色、多轮中间交互三件事拼到同一条流水线评测,最好的agent配置只过28%,严格pass^3没人到20%。
- CompactAttention冲着chunked prefill的workload缺口去——把2D block-sparse mask从执行计划降级为KV选择信号,128K context上attention拿到2.72倍加速且精度持平dense。
重点关注
01 Agent auto-research能跑了,但「敢部署」还差一截
自动化research的成本曲线已经过线——$15能跑出一篇完整论文,long-horizon agent可以接管文献综述、写代码、起草甚至模拟critique。但这份覆盖到2026年4月的综述把另一条曲线也画了出来:在科学压力下,前沿LLM仍会捏造结果、漏检错误、对novelty做不出可靠判断。作者把研究生命周期拆成Creation/Writing/Validation/Dissemination四阶段,得出的是阶段相关的结论——结构化、检索锚定、工具中介的环节AI做得扎实,真正novel的想法和research级实验仍然脆弱,生成的idea落实成代码后经常退化,research code也明显落后于pattern-matching benchmark上的表现。更值得警惕的是自动化程度提高反而会遮蔽而非消除失败模式,end-to-end全自动系统目前还达不到主流会议的接收门槛。考虑把agent塞进research workflow的团队,可以把这篇当成风险清单读——它给的不是技术菜谱,而是哪些环节能放手、哪些必须留人。
原文:AI for Auto-Research: Roadmap & User Guide
02 推理 把compiler反馈循环写进训练,而不是留在推理时
大多数agentic论文把外部反馈留给推理时的scaffold——模型生成、verifier评判、外层loop决定要不要重试。OProver的选择不同:迭代式post-training把这个循环挪进训练侧,每轮跑一遍agent proving,新验证通过的证明索引进检索库(累计1.77M条Lean语句、686万条compiler验证的证明),失败轨迹加上compiler反馈和修复当作SFT(监督微调)数据,剩下解不出的硬骨头交给RL。机制能跑通的前提是verifier又强又便宜——Lean的compiler恰好满足,失败信号可以直接驱动训练,模型自己的recovery策略被显式优化而不是靠推理时的外挂逻辑兜底。结果是开源whole-proof prover里当前最佳一档(Pass@32):MiniF2F 93.3%、ProverBench 58.2%、PutnamBench 11.3%。对手里有compiler、test suite或simulator这类硬verifier的团队,值得对照的设计是:与其在推理时拼scaffold复杂度,不如把recovery行为压进权重。
原文:OProver: A Unified Framework for Agentic Formal Theorem Proving
03 评测 agent benchmark离真实医疗流程,还差三件具体的事
常见agent基准测的是能不能完成单个任务,但真实企业场景里的失败往往不在单点能力上。CHI-Bench把三件之前评测里看不到的事拼到一条流水线上:policy density——1290+份医保和操作手册要现查现用、multi-role composition——同一任务里要切换医生/审核员/护士等角色、multilateral interaction——peer review和病人沟通本身是中间的多轮对话而不是终态输出。流水线跑在20个仿真医疗系统、87个MCP工具上,覆盖prior authorization、utilization management、care management三个域。30种agent配置里,最好的只过28%,严格pass^3没人到20%,把所有任务塞进单一session直接掉到3.8%。把agent部署到合规重的企业场景前,这条评测线比「能否完成单步」更接近真实失败模式。
原文:CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
04 推理加速 稀疏attention优化方向和生产serving正在脱节
chunked prefill已经是生产serving的默认形态,但这一年大部分稀疏attention工作还按one-shot prefill的workload做优化,落到生产线上就对不上号。block-sparse kernel在长query上跑得飞快,可query被chunk size切碎后这层优势就没了;换条路用fine-grained模式搜索,又得在不断累积的KV cache上反复支付搜索代价。CompactAttention的思路是把2D block-sparse mask当成KV选择信号而不是直接执行计划,通过Q-block union和组内union把它转换成paged执行下的最小block table,选中的块原地访问、不再做显式拷贝。在LLaMA-3.1-8B-Instruct的128K context上,chunked prefill里attention拿到2.72倍加速,RULER精度保持在dense水平。对推理infra团队来说,这是个不需要凿穿现有serving栈就能接的稀疏方案。
原文:CompactAttention: Accelerating Chunked Prefill with Block-Union KV Selection

也值得关注
今日观察
今天5篇agentic框架/benchmark(Auto-Research roadmap、OProver证明、CHI-Bench医疗、TOBench多模态工具、AgentKernelArena GPU kernel)沿一条verifier轴清晰地分成两类:硬verifier域(OProver、AgentKernelArena有compiler当ground truth,可以把agent loop挪进训练侧,让模型自身的recovery策略被显式优化);policy-rich工作流域(CHI-Bench、TOBench没有形式化verifier,只能用operational benchmark把整条流水线的失败模式测出来)。Auto-Research roadmap正好踩在中间——能生成不等于能验证,fabrication和novelty judgment是当前真正的卡点。串起来看,agent系统的下一个瓶颈不在模型能力,而在agent外面那层verification surface长什么样。对从业者的具体读法:手里有compiler/test suite/simulator的领域,值得对照OProver那种把loop拉进训练侧的做法,把失败轨迹+verifier反馈当SFT资产用;没有硬verifier的领域,CHI-Bench那种operational eval是该追的方向,先把multi-role切换、policy密集查询、多轮中间交互这些失败模式露出来再谈部署。下个迭代评审时盘一下:你们这条agent线挂的是哪一类verifier、训练侧能不能纳入对应的反馈信号、哪些失败模式还只能靠运行时scaffold去补?