4B agent几千条轨迹追平闭源CUA

今日概览

  • PEFT不只是省钱微调,而是每个用户的持久状态:一篇framing式工作把小适配器重新定位成挂在万亿参数共享基座上的本地状态,沿三条scaling轴论证「百万个个人模型」的部署形态。
  • RAG从文本越界到视频生成:LongLive-RAG把检索增强搬来治长视频的身份漂移,回头检索更早的可信片段做锚定,多个AR骨干上VBench-Long平均排名第一。
  • 在线RL让开源web agent摆脱轨迹依赖:OpenWebRL只用0.4K初始化轨迹、2.2K开放式任务,就把4B模型训到能跟OpenAI、Gemini的闭源CUA掰手腕,承诺全开源。
  • 多流并发是评测盲区:X-Stream首次专门测多流streaming理解,最强MLLM在并发流上只拿约50%,单流强不代表多流能用。

重点关注

01 训练优化 适配器不只是省钱的微调,而是每个用户的长期状态

PEFT(参数高效微调,如LoRA)一直被当成全量微调的廉价平替——同样的目的,更小的成本。这篇换了个定位:把小适配器看成挂在共享强基座之上的「持久本地状态」,基座负责通用能力,适配器承载某个用户的偏好、技能、工具习惯乃至类记忆的更新。作者沿三条scaling轴来组织这件事:Scale Up(基座越强,同样大小的本地更新越有用)、Scale Down(适配器能压到多小还保持可靠)、Scale Out(海量个性化实例如何共存),并给了一个叫MinT的基础设施样例,用来管理适配器的身份、版本、来源、评估和上线驻留。把这三轴拼起来,它真正在论证的是一种部署形态:一个万亿参数基座,配上百万个各自不同的个人模型。需要提醒的是,这更像一篇framing/position式的工作而非纯实证——读者要分清哪些是已经验证的scaling规律,哪些是对未来形态的押注,标题里的「million/trillion」目前更多是愿景而非已落地的规模。

把适配器从「省钱微调」重新理解成「每用户的持久状态」,是这篇真正的贡献,技术细节其次如果这套形态成立,多租户serving的关键问题会从「训练成本」转向「百万适配器的身份、版本和驻留管理」,MinT指的就是这个方向当position式论文读,先收下框架,scaling规律的强度等全文和后续复现再判断

02 RAG从文本越界到视频,治的是长视频「越生越歪」的病

自回归视频生成有个结构性死结:为了效率普遍用滑窗注意力,只看最近几帧,可一旦窗口里攒了外观误差,后面的帧只能基于这条已经劣化的轨迹接着画,身份越漂越远且不可逆。LongLive-RAG的反常识之处在于,它没在注意力机制或采样上修修补补,而是直接把检索增强生成(RAG)这个本属于文本大模型的范式搬了过来——把已经生成的历史latent当成一个可检索的记忆库,每生成一个新块就回头查一遍,找出更早、更可信的片段来锚定人物身份,而不是死盯着退化的近窗。为了让检索更准,它还加了个Window Temporal Delta Loss,专门压制局部冗余相似、让embedding抓住真正有意义的时间变化。多个AR骨干网络上VBench-Long平均排名第一,检索这一步的额外开销很小。真正值得记住的不是又一个长视频SOTA,而是「内容寻址记忆」这个NLP里的老办法,正在外溢到完全不同的模态。

长视频的身份漂移源于滑窗只能看近窗,RAG式回溯历史是一条绕开这个死结的新思路跨模态迁移信号——做视频生成的团队可以把NLP里成熟的检索/记忆机制纳入工具箱开销小、可加在多种AR骨干上,工程落地门槛不高,但效果需在更长时长和多样性指标上进一步验证。

03 Agent 想自己训web agent,但拿不到专有轨迹的团队该怎么办

训练视觉web agent,开源阵营一直卡在同一个地方:最强的系统都是闭源的,能公开的方案又严重依赖人工curate的大批网页操作轨迹做监督训练——这些高质量演示采集起来很贵,而且静态数据集根本覆盖不了真实网站那种天天在变的多样性。OpenWebRL的做法是绕开这条路,直接在真实网站上跑在线多轮RL:它把整条流水线补齐了,包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级别的成败判定和多轮策略优化。值得注意的是初始化只用了0.4K条轨迹、RL训练只用了2.2K个开放式任务,就把4B模型训到了能跟OpenAI、Gemini的闭源CUA掰手腕的水平——对从业者来说,关键信号不是分数高低,而是这条路对轨迹数据的依赖大幅降低了。论文承诺会开源数据、模型和代码,如果兑现,这就是想自己训agent又拿不到专有演示的团队的一个可复制起点。当然,「在真实网站上跑在线RL」的工程成本和稳定性到底如何,需要看代码和全文才能判断。

视觉web agent的开源瓶颈是轨迹数据依赖,在线RL是绕开它的一条实际路径初始化0.4K+训练2.2K任务就够,意味着不必囤积昂贵的人工演示价值在于完整开源可复制,而非刷榜——但实时浏览器RL的工程门槛待验证

04 多模态 当模型要同时盯三块屏,准确率为什么掉到五成?

视频理解的benchmark几乎都默认一个前提:一个画面、一条流。但直播体育、自动驾驶、多屏协作这些真实场景本质是多路信号并发,需要在线地跨流推理——而这块能力一直没人专门测。X-Stream补上了这个缺口,它是第一个针对多流streaming理解的benchmark,包含932个视频、4,220个问答对,覆盖多窗口、多视角、多设备共11个子任务,并用双重验证流程防止模型只靠单一画面蒙混过关。作者把多模态大模型当成需要复用多路输入的「多路复用器」(multiplexer)来考,结果很直接:当前最强的MLLM在并发流上只拿到约50%的分数,主动响应能力也差。对做实时多源应用的团队来说,这个数字说明现在的模型离「同时处理多路画面」还有明显距离,单流benchmark上的好成绩不能直接外推。

多流并发是真实场景的常态,但现有benchmark只测单流,存在系统性的评测盲区SOTA模型在并发流上只有约50%分数,主动性差,单流强不代表多流能用做实时多源(监控、多屏、自驾)应用的团队,可以用它评估模型在跨流推理上的真实上限
4B agent几千条轨迹追平闭源CUA

也值得关注

05
首个扎根韩语语境的web浏览agent benchmark 评测K-BrowseComp让GPT-5.5、DeepSeek-V4-Pro、GLM-5.1等前沿模型在母语者验证子集上同台,agent评测正走向语言/文化在地化。链接
06
测agent操作你自己的账号和本地数据库 AgentMCP-Persona用环境模拟评估agent在个人社交应用上的真实能力,补上通用信息检索类benchmark的盲区。链接
07
让VLM给视频生成模型当「老师」 多模态用测试时自适应优化纠正那些画得逼真却不守任务规则的视频生成模型的逻辑失败。链接
08
免训练的PRM替代 推理直接拿现成大模型当过程打分器做chunk级引导生成,省掉step-level标注和reward model训练。链接
09
靠纠正失真改进视觉token削减 推理加速缓解MLLM海量视觉token带来的二次复杂度显存与延迟瓶颈。链接
10
用新颖性信号给latent memory提供训练监督 AgentJAMEL把探索和记忆压缩联合学习,解决长轨迹下记忆训练缺可靠监督的问题。链接
11
生成物理一致、无碰撞的交互式3D桌面场景 机器人面向通用机器人学习,处理密集物体层级和不规则affordance。链接
12
靠捕捉内在能量异常定位AI编辑伪造图 安全对齐绕开传统方法依赖、而合成数据本就缺失的物理噪声线索。链接
13
统一蛋白质与小分子配体的协同设计 AI for Science用内在测地耦合联合建模序列与三维结构的耦合模态。链接
14
初始噪声才是mode collapse被忽视的源头 图像生成从引导势后验里采样初始噪声来提升生成多样性,而非只在生成轨迹中途干预。链接

今日观察

今天有两篇论文,把「个人化」分别按在了两个完全不同的层上,连起来看比各自单独看更有意思。

PEFT那篇是在模型权重层下注:一个万亿参数的共享基座,挂上百万个属于个人的小适配器,把你的偏好、技能、工具习惯、类记忆,做成持久驻留的本地状态。它赌的是部署形态会从「一个大模型服务所有人」变成「每个用户一份自己的AI」。MCP-Persona则在应用/评测层戳同一件事的另一面:今天大多数agent benchmark测的还是通用信息检索类工具,而真正属于「个人」的场景,是去操作你自己的账号、你自己的本地数据库——这恰恰是现有评测的盲区,也是最难的地方。

把两端摆在一起,结论不是那句被说滥的「个性化是趋势」,而是更具体的:「每个用户一份AI」正在同时从底层权重和上层应用两端被认真往前推,而且两端各自暴露出尚未解决的硬问题——权重层是适配器的scaling规律还远未跑实,应用层是个人数据环境下的agent可靠性根本没立住。这是一条独立的线(个人化的部署形态),不要和「agent从单次任务走向长期变强」那条线混为一谈。

一个具体动作:如果你在做面向个人的agent产品,别急着堆通用工具能力,先拿MCP-Persona这类「操作个人账号/本地数据」的场景给自己的agent做一次体检,看可靠性掉到哪儿——大概率你会发现真实瓶颈不在模型聪不聪明,而在它能不能稳稳地碰你自己的数据。