1.6小时长任务agent只做完两成

今日概览

  • 任务一长到1.6小时,前沿agent就只能做完两成:OSWorld 2.0把computer-use标尺从30次工具调用拉到人类中位1.6小时、平均318次调用的真实工作流,Claude Opus 4.8也只完成20.6%,暴露的全是长链路里的上下文管理短板。
  • 合规校验该读全对话,而不是拦单个参数:PolicyGuard把守卫做成读对话的子agent,在tau²-Bench航空场景上三家模型通过率提升6—12个百分点,阻断次数却只有参数级守卫的一半。
  • 视频理解的评测重心,正从「看清」转向「看了能照着做」:VG-GUIBench让GUI agent跟着教程视频一步步操作界面,配套的TASKER用任务+场景双信号挑关键帧,提升幅度克制但方向明确。
  • 人像精修换成「给样例而非给指令」:MirrorPPR给模型一对修前/修后示例,让它推断修图操作再套到新照片,绕开了文字描述精细修图的天花板,背后是4700万对样本的两段式课程训练。
  • 透明场景里,单目深度的「真值」其实是标注约定:一条光线穿过玻璃,前景和背景两个深度几何上都成立——MD-3k基准发现主流深度模型层偏好五花八门,一个免训练的频谱变换就能让冻结模型改报另一层。

重点关注

01 评测 当任务长到1.6小时,前沿agent只能做完两成

人类中位要花约1.6小时、平均318次工具调用才能完成的真实工作流——这是OSWorld 2.0给computer-use agent定的新标尺,而上一代OSWorld的任务平均只要30次调用就能跑完。108个端到端工作流覆盖日常和专业场景,每个都基于真实输入文件、对照带状态的用户画像数据,还附了单独的安全审计报告。结果是:表现最好的Claude Opus 4.8(最大思考+批量工具调用)在500步内也只完成了20.6%的任务,部分完成分54.8%;GPT-5.5更省token,但卡在13%上不去。真正有价值的是失败原因的拆解——agent栽的不是基础GUI操作或写代码,而是丢失约束条件、漏掉任务中途到达的信息、该问用户时选择猜测、跳过验证步骤,最难的是任务依赖它必须自己挖出来的隐藏状态。换句话说,短任务掩盖的长链路问题,恰恰是真实工作里最常见的那些。

长任务(1.6小时量级)是照出agent真实短板的关键标尺,短benchmark刷高分不代表能干活当前最强agent完成率仅约20%,做computer-use产品要按「会卡在中途」来设计,而非假设能一气呵成失败集中在上下文管理、主动追问、自我验证这些「软」能力上,优化方向不在GUI操控而在长程状态跟踪。

02 Agent 合规校验,错的不是模型而是切入点

大多数企业agent把「遵守公司政策」做成执行前的一道闸门:在工具调用真正发生前,检查参数是否违规,违规就拦下。PolicyGuard认为这个切入点本身就抓错了重点——真实的客服/运营流程是多轮展开的,很多合规要求(先让用户确认、先读前置信息再操作)根本不落在任何单个参数上,只能从整段对话里判断。于是它把校验器做成一个「读对话的子agent」:共享主agent看到的完整对话,对照政策做推理,并给出针对下一轮的具体修正建议,而不是简单地放行或阻断。在tau²-Bench航空场景上,跨GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro三家模型,通过率(PASS4)分别提升12/6/12个百分点;更有意思的是,它在更高的违规召回率下,阻断次数只有参数级守卫的一半左右。这意味着误拦更少、对正常流程的干扰更小——对实际部署来说,这比单纯的拦截率数字更值钱。

企业agent的合规校验应从「单点参数拦截」升级为「读全对话的上下文判断」,否则会漏掉先确认、先读取这类多轮约束做客服/运营agent的团队可以借鉴「子agent校验器+下一轮修正建议」的架构,而非硬阻断少拦、拦得准比单纯提高拦截率更有部署价值,但跨场景泛化仍需看全文确认。

03 多模态 模型看得清画面,但能照着教程视频把事做完吗?

打开一段软件教程视频,跟着它一步步在界面上点下去、把一个任务做完——VG-GUIBench要评测的正是GUI agent能不能做到这件事:从教程视频里学到可迁移的procedural(操作流程)技能,再照着去完成下游的长链路任务,而不只是看清画面里有什么、发生了什么。这等于把「看视频」和「照着视频做事」两件事接到了一起。作者还观察到这两类任务的瓶颈都卡在keyframe(关键帧)抽取上,于是做了TASKER算法,同时考虑任务相关性和场景动态来挑信息量最大的帧。提升幅度是克制的——EgoSchema上比最好的baseline高2.0%,NExT-QA高1.8%,单看数字不算惊艳,真正的价值在于它把视频理解的评测从「感知」推向了「看了能不能用」。具体到GUI agent场景能不能扛住真实长链路任务,还需要看全文里VG-GUIBench的难度设置才能下判断。

视频理解的评测重心正从「看清画面」转向「看了能照着做」,做agent的团队该关注这条线关键帧抽取是VideoQA和视频引导agent任务的共同瓶颈,TASKER用任务+场景双信号挑帧值得借鉴benchmark提升仅约2%,把它当方向信号而非性能突破来读更合适。

04 图像生成 把人像精修变成「看样例模仿」,绕开文字描述的天花板

「下巴收一点、肤色调匀一点」这类精细修图,用文字几乎说不清——一句话既概括不了局部改动,也传不出分寸感。MirrorPPR换了交互方式:不给指令,给一对「修前/修后」的示例,让模型从这对图里推断出修图操作,再套到新的人像上。技术上用一个操作提取器捕捉示例对之间的细微差异,把它注入预训练的扩散Transformer(DiT),靠LoRA做轻量适配;配套还自建了4700万对修图样本的数据集,用先模拟、后专业的两段式课程训练。论文称在修图质量和身份保持上都优于现有方法,但这是个新任务、缺乏统一基准,效果好坏更依赖示例对本身的质量,实际泛化能力需要看全文和上手测试才能下结论。

「给样例而非给指令」是精细图像编辑的一条新交互路径,文字描述的天花板在人像修图上尤其明显做电商/影像修图工具的团队值得关注这种范式,它天然契合「一套风格批量套用」的需求新任务缺乏成熟基准,示例对质量和跨身份泛化是落地前要重点验证的两点。

05 模型架构 一条光线穿过玻璃,单目深度模型该报哪个深度

透明场景藏着一个让人意外的漏洞:当相机光线同时穿过前景玻璃又看到背景,前景和背景两个深度在几何上都成立,但单目深度模型被迫每个像素只吐一个标量值。这篇工作把这种「分层歧义」做成了可测量的基准MD-3k,结果发现主流深度foundation model在同一个场景下的「层偏好」五花八门——有的报玻璃,有的报背景,所谓的深度真值其实是标注约定决定的,不是场景本身的属性。更意外的是,一个不需要训练的频谱输入变换(Laplacian Visual Prompting)就能让冻结模型改报另一层,最强的RGB/LVP组合在多层空间关系上做到75.5%准确率。对任何在产品里用单目深度的人来说,这是个提醒:模型在透明、反光、分层场景「出错」时,错的可能是监督标签而不是模型本身。

单目深度的「真值」是标注约定的产物,透明/分层场景下不止一个正确答案用深度模型做3D重建、AR、机器人抓取时,透明物体的异常不一定是模型bug一个免训练的频谱变换就能切换模型报告的深度层,说明现有模型其实憋着没说出口的几何假设。
1.6小时长任务agent只做完两成

也值得关注

06
Apple按「覆盖度」而非纯注意力分数来淘汰KV cache 推理加速长上下文推理更省,又不掉点。链接
07
不改预训练权重,只缩放选定层的注意力头激活 多模态几乎零额外参数就能给VLM补上空间推理。链接
08
模型写在scratchpad上的中间状态,后面真会读回去吗 可解释性Stanford追问那些中间变量是参与了计算,还是只是好看。链接
09
让多个LLM协作时自创一套紧凑符号 推理替代冗长的自然语言CoT,换来更高的推理效率。链接
10
用「贝叶斯惊讶」当奖励信号 AI for ScienceAllen Institute引导LLM在长程假设搜索-验证循环里挑下一个该验的假设。链接
11
把边缘AI芯片为峰值预留的闲置算力「收割」回来 推理加速Huawei用通用近似手段榨出这部分常年空转的算力。链接
12
VLM继承了语言里的关系先验,却用不到图像上 多模态这篇用Gromov-Wasserstein把语言和图像的语义关系对齐起来。链接
13
人脸视频超分不必当成全生成 视频生成用动态轨迹初始化,省掉固定采样那套昂贵推理。链接
14
3D场景布局不再把资产和坐标转成文本再喂模型 图像生成原生用3D表示,让LLM排出更合理的布局。链接
15
模型能不能「看见」一个物体,被它学到的描述系统圈定了上限 可解释性Microsoft借维特根斯坦给「看见」划了条边界。链接

今日观察

今天有两篇视觉论文,从完全不同的入口戳同一个假设:视觉任务里的「真值」,到底是场景本身固有的,还是我们贴上去的约定。One Scene, Two Depths拿透明场景做证明——一条光线穿过玻璃,前景和背景两个深度几何上都成立,标量深度真值不过是标注时挑了一层当答案;Microsoft那篇Can Machines Really See Objects则从语言这头切:模型能「看见」什么,被它学到的那套描述系统框死了,识别能力的边界其实是描述系统的边界。一个说真值是标注约定,一个说识别是语言framing,落点是同一句反常识的提醒:当模型在深度或识别上「翻车」,第一反应不该是改模型,而是回头看一眼标签和评测口径——出错的很可能是这套口径本身,它替场景做了一个它没资格做的选择。

落到手上可以做一件具体的事:挑出你产品里那批「模型一直搞不定」的难例,先不动模型,让两个人各自独立重标一遍,看标注一致性。如果连人都对不齐,那这部分指标降的不是模型能力,是你的真值定义——该改的是评测口径,不是再灌一轮训练数据。