今日概览
- PEFT不只是省钱微调,而是每个用户的持久状态:一篇framing式工作把小适配器重新定位成挂在万亿参数共享基座上的本地状态,沿三条scaling轴论证「百万个个人模型」的部署形态。
- RAG从文本越界到视频生成:LongLive-RAG把检索增强搬来治长视频的身份漂移,回头检索更早的可信片段做锚定,多个AR骨干上VBench-Long平均排名第一。
- 在线RL让开源web agent摆脱轨迹依赖:OpenWebRL只用0.4K初始化轨迹、2.2K开放式任务,就把4B模型训到能跟OpenAI、Gemini的闭源CUA掰手腕,承诺全开源。
- 多流并发是评测盲区:X-Stream首次专门测多流streaming理解,最强MLLM在并发流上只拿约50%,单流强不代表多流能用。
重点关注
01 训练优化 适配器不只是省钱的微调,而是每个用户的长期状态
PEFT(参数高效微调,如LoRA)一直被当成全量微调的廉价平替——同样的目的,更小的成本。这篇换了个定位:把小适配器看成挂在共享强基座之上的「持久本地状态」,基座负责通用能力,适配器承载某个用户的偏好、技能、工具习惯乃至类记忆的更新。作者沿三条scaling轴来组织这件事:Scale Up(基座越强,同样大小的本地更新越有用)、Scale Down(适配器能压到多小还保持可靠)、Scale Out(海量个性化实例如何共存),并给了一个叫MinT的基础设施样例,用来管理适配器的身份、版本、来源、评估和上线驻留。把这三轴拼起来,它真正在论证的是一种部署形态:一个万亿参数基座,配上百万个各自不同的个人模型。需要提醒的是,这更像一篇framing/position式的工作而非纯实证——读者要分清哪些是已经验证的scaling规律,哪些是对未来形态的押注,标题里的「million/trillion」目前更多是愿景而非已落地的规模。
原文:On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
02 RAG从文本越界到视频,治的是长视频「越生越歪」的病
自回归视频生成有个结构性死结:为了效率普遍用滑窗注意力,只看最近几帧,可一旦窗口里攒了外观误差,后面的帧只能基于这条已经劣化的轨迹接着画,身份越漂越远且不可逆。LongLive-RAG的反常识之处在于,它没在注意力机制或采样上修修补补,而是直接把检索增强生成(RAG)这个本属于文本大模型的范式搬了过来——把已经生成的历史latent当成一个可检索的记忆库,每生成一个新块就回头查一遍,找出更早、更可信的片段来锚定人物身份,而不是死盯着退化的近窗。为了让检索更准,它还加了个Window Temporal Delta Loss,专门压制局部冗余相似、让embedding抓住真正有意义的时间变化。多个AR骨干网络上VBench-Long平均排名第一,检索这一步的额外开销很小。真正值得记住的不是又一个长视频SOTA,而是「内容寻址记忆」这个NLP里的老办法,正在外溢到完全不同的模态。
原文:LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation
03 Agent 想自己训web agent,但拿不到专有轨迹的团队该怎么办
训练视觉web agent,开源阵营一直卡在同一个地方:最强的系统都是闭源的,能公开的方案又严重依赖人工curate的大批网页操作轨迹做监督训练——这些高质量演示采集起来很贵,而且静态数据集根本覆盖不了真实网站那种天天在变的多样性。OpenWebRL的做法是绕开这条路,直接在真实网站上跑在线多轮RL:它把整条流水线补齐了,包括可扩展的实时浏览器基础设施、监督初始化、多模态上下文管理、轨迹级别的成败判定和多轮策略优化。值得注意的是初始化只用了0.4K条轨迹、RL训练只用了2.2K个开放式任务,就把4B模型训到了能跟OpenAI、Gemini的闭源CUA掰手腕的水平——对从业者来说,关键信号不是分数高低,而是这条路对轨迹数据的依赖大幅降低了。论文承诺会开源数据、模型和代码,如果兑现,这就是想自己训agent又拿不到专有演示的团队的一个可复制起点。当然,「在真实网站上跑在线RL」的工程成本和稳定性到底如何,需要看代码和全文才能判断。
原文:OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents
04 多模态 当模型要同时盯三块屏,准确率为什么掉到五成?
视频理解的benchmark几乎都默认一个前提:一个画面、一条流。但直播体育、自动驾驶、多屏协作这些真实场景本质是多路信号并发,需要在线地跨流推理——而这块能力一直没人专门测。X-Stream补上了这个缺口,它是第一个针对多流streaming理解的benchmark,包含932个视频、4,220个问答对,覆盖多窗口、多视角、多设备共11个子任务,并用双重验证流程防止模型只靠单一画面蒙混过关。作者把多模态大模型当成需要复用多路输入的「多路复用器」(multiplexer)来考,结果很直接:当前最强的MLLM在并发流上只拿到约50%的分数,主动响应能力也差。对做实时多源应用的团队来说,这个数字说明现在的模型离「同时处理多路画面」还有明显距离,单流benchmark上的好成绩不能直接外推。
原文:X-Stream: Exploring MLLMs as Multiplexers for Multi-Stream Understanding

也值得关注
今日观察
今天有两篇论文,把「个人化」分别按在了两个完全不同的层上,连起来看比各自单独看更有意思。
PEFT那篇是在模型权重层下注:一个万亿参数的共享基座,挂上百万个属于个人的小适配器,把你的偏好、技能、工具习惯、类记忆,做成持久驻留的本地状态。它赌的是部署形态会从「一个大模型服务所有人」变成「每个用户一份自己的AI」。MCP-Persona则在应用/评测层戳同一件事的另一面:今天大多数agent benchmark测的还是通用信息检索类工具,而真正属于「个人」的场景,是去操作你自己的账号、你自己的本地数据库——这恰恰是现有评测的盲区,也是最难的地方。
把两端摆在一起,结论不是那句被说滥的「个性化是趋势」,而是更具体的:「每个用户一份AI」正在同时从底层权重和上层应用两端被认真往前推,而且两端各自暴露出尚未解决的硬问题——权重层是适配器的scaling规律还远未跑实,应用层是个人数据环境下的agent可靠性根本没立住。这是一条独立的线(个人化的部署形态),不要和「agent从单次任务走向长期变强」那条线混为一谈。
一个具体动作:如果你在做面向个人的agent产品,别急着堆通用工具能力,先拿MCP-Persona这类「操作个人账号/本地数据」的场景给自己的agent做一次体检,看可靠性掉到哪儿——大概率你会发现真实瓶颈不在模型聪不聪明,而在它能不能稳稳地碰你自己的数据。