1.6小时长任务agent只做完两成

今日概览

任务一长到1.6小时，前沿agent就只能做完两成：OSWorld 2.0把computer-use标尺从30次工具调用拉到人类中位1.6小时、平均318次调用的真实工作流，Claude Opus 4.8也只完成20.6%，暴露的全是长链路里的上下文管理短板。
合规校验该读全对话，而不是拦单个参数：PolicyGuard把守卫做成读对话的子agent，在tau²-Bench航空场景上三家模型通过率提升6—12个百分点，阻断次数却只有参数级守卫的一半。
视频理解的评测重心，正从「看清」转向「看了能照着做」：VG-GUIBench让GUI agent跟着教程视频一步步操作界面，配套的TASKER用任务+场景双信号挑关键帧，提升幅度克制但方向明确。
人像精修换成「给样例而非给指令」：MirrorPPR给模型一对修前/修后示例，让它推断修图操作再套到新照片，绕开了文字描述精细修图的天花板，背后是4700万对样本的两段式课程训练。
透明场景里，单目深度的「真值」其实是标注约定：一条光线穿过玻璃，前景和背景两个深度几何上都成立——MD-3k基准发现主流深度模型层偏好五花八门，一个免训练的频谱变换就能让冻结模型改报另一层。

重点关注

01 评测当任务长到1.6小时，前沿agent只能做完两成

人类中位要花约1.6小时、平均318次工具调用才能完成的真实工作流——这是OSWorld 2.0给computer-use agent定的新标尺，而上一代OSWorld的任务平均只要30次调用就能跑完。108个端到端工作流覆盖日常和专业场景，每个都基于真实输入文件、对照带状态的用户画像数据，还附了单独的安全审计报告。结果是：表现最好的Claude Opus 4.8（最大思考+批量工具调用）在500步内也只完成了20.6%的任务，部分完成分54.8%；GPT-5.5更省token，但卡在13%上不去。真正有价值的是失败原因的拆解——agent栽的不是基础GUI操作或写代码，而是丢失约束条件、漏掉任务中途到达的信息、该问用户时选择猜测、跳过验证步骤，最难的是任务依赖它必须自己挖出来的隐藏状态。换句话说，短任务掩盖的长链路问题，恰恰是真实工作里最常见的那些。

长任务（1.6小时量级）是照出agent真实短板的关键标尺，短benchmark刷高分不代表能干活当前最强agent完成率仅约20%，做computer-use产品要按「会卡在中途」来设计，而非假设能一气呵成失败集中在上下文管理、主动追问、自我验证这些「软」能力上，优化方向不在GUI操控而在长程状态跟踪。

原文：OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

02 Agent 合规校验，错的不是模型而是切入点

大多数企业agent把「遵守公司政策」做成执行前的一道闸门：在工具调用真正发生前，检查参数是否违规，违规就拦下。PolicyGuard认为这个切入点本身就抓错了重点——真实的客服/运营流程是多轮展开的，很多合规要求（先让用户确认、先读前置信息再操作）根本不落在任何单个参数上，只能从整段对话里判断。于是它把校验器做成一个「读对话的子agent」：共享主agent看到的完整对话，对照政策做推理，并给出针对下一轮的具体修正建议，而不是简单地放行或阻断。在tau²-Bench航空场景上，跨GPT-5.4、Claude Sonnet 4.6、Gemini 2.5 Pro三家模型，通过率（PASS4）分别提升12/6/12个百分点；更有意思的是，它在更高的违规召回率下，阻断次数只有参数级守卫的一半左右。这意味着误拦更少、对正常流程的干扰更小——对实际部署来说，这比单纯的拦截率数字更值钱。

企业agent的合规校验应从「单点参数拦截」升级为「读全对话的上下文判断」，否则会漏掉先确认、先读取这类多轮约束做客服/运营agent的团队可以借鉴「子agent校验器+下一轮修正建议」的架构，而非硬阻断少拦、拦得准比单纯提高拦截率更有部署价值，但跨场景泛化仍需看全文确认。

原文：PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

03 多模态模型看得清画面，但能照着教程视频把事做完吗？

打开一段软件教程视频，跟着它一步步在界面上点下去、把一个任务做完——VG-GUIBench要评测的正是GUI agent能不能做到这件事：从教程视频里学到可迁移的procedural（操作流程）技能，再照着去完成下游的长链路任务，而不只是看清画面里有什么、发生了什么。这等于把「看视频」和「照着视频做事」两件事接到了一起。作者还观察到这两类任务的瓶颈都卡在keyframe（关键帧）抽取上，于是做了TASKER算法，同时考虑任务相关性和场景动态来挑信息量最大的帧。提升幅度是克制的——EgoSchema上比最好的baseline高2.0%，NExT-QA高1.8%，单看数字不算惊艳，真正的价值在于它把视频理解的评测从「感知」推向了「看了能不能用」。具体到GUI agent场景能不能扛住真实长链路任务，还需要看全文里VG-GUIBench的难度设置才能下判断。

视频理解的评测重心正从「看清画面」转向「看了能照着做」，做agent的团队该关注这条线关键帧抽取是VideoQA和视频引导agent任务的共同瓶颈，TASKER用任务+场景双信号挑帧值得借鉴benchmark提升仅约2%，把它当方向信号而非性能突破来读更合适。

原文：Bridging VideoQA and Video-Guided Agentic Tasks via Generalized Keyframe Extraction

04 图像生成把人像精修变成「看样例模仿」，绕开文字描述的天花板

「下巴收一点、肤色调匀一点」这类精细修图，用文字几乎说不清——一句话既概括不了局部改动，也传不出分寸感。MirrorPPR换了交互方式：不给指令，给一对「修前/修后」的示例，让模型从这对图里推断出修图操作，再套到新的人像上。技术上用一个操作提取器捕捉示例对之间的细微差异，把它注入预训练的扩散Transformer（DiT），靠LoRA做轻量适配；配套还自建了4700万对修图样本的数据集，用先模拟、后专业的两段式课程训练。论文称在修图质量和身份保持上都优于现有方法，但这是个新任务、缺乏统一基准，效果好坏更依赖示例对本身的质量，实际泛化能力需要看全文和上手测试才能下结论。

「给样例而非给指令」是精细图像编辑的一条新交互路径，文字描述的天花板在人像修图上尤其明显做电商/影像修图工具的团队值得关注这种范式，它天然契合「一套风格批量套用」的需求新任务缺乏成熟基准，示例对质量和跨身份泛化是落地前要重点验证的两点。

原文：MirrorPPR: Exemplar-Based Portrait Photo Retouching

05 模型架构一条光线穿过玻璃，单目深度模型该报哪个深度

透明场景藏着一个让人意外的漏洞：当相机光线同时穿过前景玻璃又看到背景，前景和背景两个深度在几何上都成立，但单目深度模型被迫每个像素只吐一个标量值。这篇工作把这种「分层歧义」做成了可测量的基准MD-3k，结果发现主流深度foundation model在同一个场景下的「层偏好」五花八门——有的报玻璃，有的报背景，所谓的深度真值其实是标注约定决定的，不是场景本身的属性。更意外的是，一个不需要训练的频谱输入变换（Laplacian Visual Prompting）就能让冻结模型改报另一层，最强的RGB/LVP组合在多层空间关系上做到75.5%准确率。对任何在产品里用单目深度的人来说，这是个提醒：模型在透明、反光、分层场景「出错」时，错的可能是监督标签而不是模型本身。

单目深度的「真值」是标注约定的产物，透明/分层场景下不止一个正确答案用深度模型做3D重建、AR、机器人抓取时，透明物体的异常不一定是模型bug一个免训练的频谱变换就能切换模型报告的深度层，说明现有模型其实憋着没说出口的几何假设。

原文：One Scene, Two Depths: Probing Geometric Ambiguity in Monocular Foundation Models

也值得关注

Apple按「覆盖度」而非纯注意力分数来淘汰KV cache 推理加速长上下文推理更省，又不掉点。链接

不改预训练权重，只缩放选定层的注意力头激活 多模态几乎零额外参数就能给VLM补上空间推理。链接

模型写在scratchpad上的中间状态，后面真会读回去吗 可解释性Stanford追问那些中间变量是参与了计算，还是只是好看。链接

让多个LLM协作时自创一套紧凑符号 推理替代冗长的自然语言CoT，换来更高的推理效率。链接

用「贝叶斯惊讶」当奖励信号 AI for ScienceAllen Institute引导LLM在长程假设搜索-验证循环里挑下一个该验的假设。链接

把边缘AI芯片为峰值预留的闲置算力「收割」回来 推理加速Huawei用通用近似手段榨出这部分常年空转的算力。链接

VLM继承了语言里的关系先验，却用不到图像上 多模态这篇用Gromov-Wasserstein把语言和图像的语义关系对齐起来。链接

人脸视频超分不必当成全生成 视频生成用动态轨迹初始化，省掉固定采样那套昂贵推理。链接

3D场景布局不再把资产和坐标转成文本再喂模型 图像生成原生用3D表示，让LLM排出更合理的布局。链接

模型能不能「看见」一个物体，被它学到的描述系统圈定了上限 可解释性Microsoft借维特根斯坦给「看见」划了条边界。链接

今日观察

今天有两篇视觉论文，从完全不同的入口戳同一个假设：视觉任务里的「真值」，到底是场景本身固有的，还是我们贴上去的约定。One Scene, Two Depths拿透明场景做证明——一条光线穿过玻璃，前景和背景两个深度几何上都成立，标量深度真值不过是标注时挑了一层当答案；Microsoft那篇Can Machines Really See Objects则从语言这头切：模型能「看见」什么，被它学到的那套描述系统框死了，识别能力的边界其实是描述系统的边界。一个说真值是标注约定，一个说识别是语言framing，落点是同一句反常识的提醒：当模型在深度或识别上「翻车」，第一反应不该是改模型，而是回头看一眼标签和评测口径——出错的很可能是这套口径本身，它替场景做了一个它没资格做的选择。

落到手上可以做一件具体的事：挑出你产品里那批「模型一直搞不定」的难例，先不动模型，让两个人各自独立重标一遍，看标注一致性。如果连人都对不齐，那这部分指标降的不是模型能力，是你的真值定义——该改的是评测口径，不是再灌一轮训练数据。

今日概览

重点关注

01 评测 当任务长到1.6小时，前沿agent只能做完两成