今日概览
- 任务一长到1.6小时,前沿agent就只能做完两成:OSWorld 2.0把computer-use标尺从30次工具调用拉到人类中位1.6小时、平均318次调用的真实工作流,Claude Opus 4.8也只完成20.6%,暴露的全是长链路里的上下文管理短板。
- 合规校验该读全对话,而不是拦单个参数:PolicyGuard把守卫做成读对话的子agent,在tau²-Bench航空场景上三家模型通过率提升6—12个百分点,阻断次数却只有参数级守卫的一半。
- 视频理解的评测重心,正从「看清」转向「看了能照着做」:VG-GUIBench让GUI agent跟着教程视频一步步操作界面,配套的TASKER用任务+场景双信号挑关键帧,提升幅度克制但方向明确。
- 人像精修换成「给样例而非给指令」:MirrorPPR给模型一对修前/修后示例,让它推断修图操作再套到新照片,绕开了文字描述精细修图的天花板,背后是4700万对样本的两段式课程训练。
- 透明场景里,单目深度的「真值」其实是标注约定:一条光线穿过玻璃,前景和背景两个深度几何上都成立——MD-3k基准发现主流深度模型层偏好五花八门,一个免训练的频谱变换就能让冻结模型改报另一层。
重点关注
01 评测 当任务长到1.6小时,前沿agent只能做完两成
人类中位要花约1.6小时、平均318次工具调用才能完成的真实工作流——这是OSWorld 2.0给computer-use agent定的新标尺,而上一代OSWorld的任务平均只要30次调用就能跑完。108个端到端工作流覆盖日常和专业场景,每个都基于真实输入文件、对照带状态的用户画像数据,还附了单独的安全审计报告。结果是:表现最好的Claude Opus 4.8(最大思考+批量工具调用)在500步内也只完成了20.6%的任务,部分完成分54.8%;GPT-5.5更省token,但卡在13%上不去。真正有价值的是失败原因的拆解——agent栽的不是基础GUI操作或写代码,而是丢失约束条件、漏掉任务中途到达的信息、该问用户时选择猜测、跳过验证步骤,最难的是任务依赖它必须自己挖出来的隐藏状态。换句话说,短任务掩盖的长链路问题,恰恰是真实工作里最常见的那些。
原文:OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks
02 Agent 合规校验,错的不是模型而是切入点
大多数企业agent把「遵守公司政策」做成执行前的一道闸门:在工具调用真正发生前,检查参数是否违规,违规就拦下。PolicyGuard认为这个切入点本身就抓错了重点——真实的客服/运营流程是多轮展开的,很多合规要求(先让用户确认、先读前置信息再操作)根本不落在任何单个参数上,只能从整段对话里判断。于是它把校验器做成一个「读对话的子agent」:共享主agent看到的完整对话,对照政策做推理,并给出针对下一轮的具体修正建议,而不是简单地放行或阻断。在tau²-Bench航空场景上,跨GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro三家模型,通过率(PASS4)分别提升12/6/12个百分点;更有意思的是,它在更高的违规召回率下,阻断次数只有参数级守卫的一半左右。这意味着误拦更少、对正常流程的干扰更小——对实际部署来说,这比单纯的拦截率数字更值钱。
原文:PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents
03 多模态 模型看得清画面,但能照着教程视频把事做完吗?
打开一段软件教程视频,跟着它一步步在界面上点下去、把一个任务做完——VG-GUIBench要评测的正是GUI agent能不能做到这件事:从教程视频里学到可迁移的procedural(操作流程)技能,再照着去完成下游的长链路任务,而不只是看清画面里有什么、发生了什么。这等于把「看视频」和「照着视频做事」两件事接到了一起。作者还观察到这两类任务的瓶颈都卡在keyframe(关键帧)抽取上,于是做了TASKER算法,同时考虑任务相关性和场景动态来挑信息量最大的帧。提升幅度是克制的——EgoSchema上比最好的baseline高2.0%,NExT-QA高1.8%,单看数字不算惊艳,真正的价值在于它把视频理解的评测从「感知」推向了「看了能不能用」。具体到GUI agent场景能不能扛住真实长链路任务,还需要看全文里VG-GUIBench的难度设置才能下判断。
原文:Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction
04 图像生成 把人像精修变成「看样例模仿」,绕开文字描述的天花板
「下巴收一点、肤色调匀一点」这类精细修图,用文字几乎说不清——一句话既概括不了局部改动,也传不出分寸感。MirrorPPR换了交互方式:不给指令,给一对「修前/修后」的示例,让模型从这对图里推断出修图操作,再套到新的人像上。技术上用一个操作提取器捕捉示例对之间的细微差异,把它注入预训练的扩散Transformer(DiT),靠LoRA做轻量适配;配套还自建了4700万对修图样本的数据集,用先模拟、后专业的两段式课程训练。论文称在修图质量和身份保持上都优于现有方法,但这是个新任务、缺乏统一基准,效果好坏更依赖示例对本身的质量,实际泛化能力需要看全文和上手测试才能下结论。
原文:MirrorPPR: Exemplar-Based Portrait Photo Retouching
05 模型架构 一条光线穿过玻璃,单目深度模型该报哪个深度
透明场景藏着一个让人意外的漏洞:当相机光线同时穿过前景玻璃又看到背景,前景和背景两个深度在几何上都成立,但单目深度模型被迫每个像素只吐一个标量值。这篇工作把这种「分层歧义」做成了可测量的基准MD-3k,结果发现主流深度foundation model在同一个场景下的「层偏好」五花八门——有的报玻璃,有的报背景,所谓的深度真值其实是标注约定决定的,不是场景本身的属性。更意外的是,一个不需要训练的频谱输入变换(Laplacian Visual Prompting)就能让冻结模型改报另一层,最强的RGB/LVP组合在多层空间关系上做到75.5%准确率。对任何在产品里用单目深度的人来说,这是个提醒:模型在透明、反光、分层场景「出错」时,错的可能是监督标签而不是模型本身。
原文:One Scene, Two Depths: Probing Geometric Ambiguity in Monocular Foundation Models

也值得关注
今日观察
今天有两篇视觉论文,从完全不同的入口戳同一个假设:视觉任务里的「真值」,到底是场景本身固有的,还是我们贴上去的约定。One Scene, Two Depths拿透明场景做证明——一条光线穿过玻璃,前景和背景两个深度几何上都成立,标量深度真值不过是标注时挑了一层当答案;Microsoft那篇Can Machines Really See Objects则从语言这头切:模型能「看见」什么,被它学到的那套描述系统框死了,识别能力的边界其实是描述系统的边界。一个说真值是标注约定,一个说识别是语言framing,落点是同一句反常识的提醒:当模型在深度或识别上「翻车」,第一反应不该是改模型,而是回头看一眼标签和评测口径——出错的很可能是这套口径本身,它替场景做了一个它没资格做的选择。
落到手上可以做一件具体的事:挑出你产品里那批「模型一直搞不定」的难例,先不动模型,让两个人各自独立重标一遍,看标注一致性。如果连人都对不齐,那这部分指标降的不是模型能力,是你的真值定义——该改的是评测口径,不是再灌一轮训练数据。