0.5概率即逐字背诵,倒放视频测因果

今日概览

  • 把LoRA反过来当量尺,量出模型参数化记忆的真实容量:记忆容量服从可提前估算的幂律,token预测概率0.5是逐字背诵的临界线,rank该开多大、何时切全量微调不再靠手感。
  • 统一检索的关键不是接口而是别丢结构:OmniRetrieval用「路由到各源原生引擎」替代「压进共享向量空间」,在309个知识库上跑赢单源baseline,保住了schema和图结构的价值。
  • 把真实视频倒放就成了零成本反事实:YoCausal用倒放视频当违反预期的负样本,测出13个视频扩散模型能感知时间箭头却说不清因果,「生成逼真」和「理解物理」是两回事。
  • 图像agent从「改prompt」转向「自己写代码动笔」:GenClaw让LLM用SVG/HTML/Three.js把构图钉死成可执行草图,再交给生成模型上色,价值在可控性而非画质。
  • agent护栏堆满「轻量」「实时」,真新意藏在分类法里:AgentDoG 1.5的实质创新是更新后的开放世界agent风险taxonomy,「1k样本追平闭源」的数字要打折看,模型与数据集已开源可自行验证。

重点关注

01 训练优化 把LoRA反过来当量尺,量出模型记忆的真实容量

大家用LoRA给模型打知识补丁时,rank开多大、什么时候塞不下,基本全凭手感。这篇工作换了个用法:把LoRA当成一把可控的「记忆探针」,去测量模型参数化记忆到底能装多少。结论是一条「记忆律」——损失下降ΔL与有效参数量、序列长度之间是一条稳定的幂律关系,意味着记忆容量不是玄学,而是可以提前估算的。更细的发现是token级别存在一个明确的相变:在贪心解码下,只要预测概率超过0.5,就足以让模型逐字背出这个token。基于这点他们做了MemFT,把训练预算动态倾斜到那些还没过0.5阈值的token上,用同样的成本换更高的记忆保真度。作者的实测里,MemFT在不加训练预算的前提下明显抬升了目标事实的逐字复现率,相当于把原本浪费在「早已记牢」token上的算力挪给了濒临阈值的难点,等于免费换来一截保真度。至于这条幂律的边界——当待记忆的事实量逼近某个rank对应的容量上限时,ΔL会偏离直线、进入饱和,这个拐点恰恰是该停止堆rank、改切全量微调的信号;它在更大rank和更长序列上是否依然成立,仍需看全文的外推实验确认。但这个把记忆容量量化下来的框架本身,已经比又一个微调trick更有价值。

记忆容量可按幂律提前估算,rank和能塞下多少事实不再靠拍脑袋token预测概率0.5是逐字背诵的临界线,可作为判断「记没记住」的硬指标当新事实量超出LoRA容量上限时,与其堆rank不如及早切全量微调

02 检索 统一检索的难点不是接口,是别把结构信息搞丢

做RAG的团队手里常攒着好几套检索器:文本走向量库,表格走SQL,知识图谱又是另一套查询语言,跨源问一个问题全靠胶水代码拼。OmniRetrieval的思路是加一层统一入口:接一句自然语言,判断该查哪些源,再把查询翻译成各源的原生语言、丢给各自的执行引擎跑。它特意没走「把所有源压进一个共享向量空间」的捷径——那样做会抹掉schema、本体、组合算子这些让结构化数据值钱的东西。在覆盖13个数据集、309个知识库的benchmark上,它的表现超过了单源baseline,说明这个「路由+原生执行」的架构是站得住的。不过摘要只给了「超过baseline」这种定性结论,具体在每类源上领先多少、路由判断错了怎么兜底,得看全文确认。

跨源检索的正确解法是路由到各源原生引擎,而非统一embedding,建检索系统的人值得借鉴这个分层思路保留schema和图结构这类结构特性,比强行同构化更能发挥每个源的价值309个知识库的覆盖面够说明泛化性,但单源领先幅度和路由失败的兜底机制仍需看全文。

03 评测 把视频倒放一下,号称世界模型的它们就露馅了

最朴素的测因果办法,居然是把真实视频时间倒放——水往杯里倒变成水自己飞回瓶口,物理上荒谬,于是天然成了一批零成本的「违反预期」负样本。YoCausal就靠这招搭了两级评测:先用去噪损失衡量模型能不能察觉时间箭头(RSI),再用一个VLM把数据切成「真因果」和「只是时序相关」两类,把背下来的统计规律和真正的因果推理分开看(CCI)。意外的是,13个主流视频扩散模型测下来,能感知时间方向并不等于理解因果——模型知道这段倒放了,却说不清为什么不该这样,离人类水平的因果认知还差一大截。换句话说,「生成得足够真实」和「理解背后的物理因果」是两回事,前者达标不代表后者跟上了。

把真实视频倒放当反事实负样本,是个几乎零成本且可无限扩展的评测思路,值得做世界模型的团队借鉴感知时间箭头≠理解因果,别把生成逼真当成模型懂物理的证据当前视频扩散模型距离真正的「世界模型」仍有明显差距,相关宣传需要打折扣看。

04 图像生成 当图像agent学会自己写代码动笔,而不只是反复改prompt

现在的图像生成agent有个绕不开的尴尬:它能理解需求、能调工具,却对画布本身没有直接控制权——底层黑盒模型给什么就是什么,agent只能反复重写prompt再重生成,像个只会换措辞催稿的甲方。GenClaw换了个分工:让LLM先用代码(SVG、HTML、Three.js)把构图、布局、几何关系画成一张可执行草图,把位置、比例这些结构性的东西精确钉死,再交给图像模型补材质和光影——这正模仿了人类画家「先构思、再起稿、最后上色」的流程,代码成了语言推理和像素合成之间一个可控的中间画布。从论文看,这条路线的价值在可控性和可解释性,而非画质本身;但agent写代码起稿的能力上限、以及代码草图和最终成图之间的偏差有多大,仍需看全文和实测才能下结论。

agentic图像生成的瓶颈不在画质,而在对画布缺乏直接控制权——代码起稿是一条把结构关掉黑盒的思路做精确排版、几何构图类生成的团队值得关注「代码作中间画布」这个范式但这是新方向的早期工作,可控性提升能否覆盖代码起稿本身的能力上限,待验证

05 安全对齐 agent护栏堆了一堆「轻量」「实时」,真正的新东西藏在分类法里

摘要里lightweight、scalable、real-time一连串词读着很顺,但拆开看,这套框架真正动了刀子的只有一处:把agent安全风险的分类法(taxonomy)更新了,专门去覆盖Codex、OpenClaw这类开放世界agent跨环境执行带来的新型风险。剩下的卖点——0.8B到8B的小模型、只用约1k样本就追平GPT-5.4级别的闭源模型、Docker部署开销降两个数量级——单看数字都漂亮,但「约1k样本打平顶级闭源」这种说法通常高度依赖评测集的构造方式,容易在自家taxonomy定义的场景里自证。对从业者真正有参考价值的,是看它把哪些新的攻击面(比如agent调用工具、跨环境执行时的越权)纳入了分类,这部分认知能直接迁移到自己的防护设计里,而不是榜单分数。好在模型和数据集都开源了,与其信那串营销词,不如花时间去读那份新taxonomy自行验证。

框架的实质创新在更新后的agent风险分类法,小模型和样本效率的数字要打折看「1k样本追平闭源」高度依赖评测构造,自家taxonomy场景里容易自证模型与数据集已开源,做agent防护的团队值得直接读它的风险分类、而非采信跑分。
0.5概率即逐字背诵,倒放视频测因果

也值得关注

06
全栈开源的实时交互式视频世界模型 视频生成从数据构建到流式推理整条链路都开放,想自己跑世界模型的人值得看。minWM
07
把token压缩从prefill后期提前到视觉编码器阶段 推理加速视频理解的压缩通常发生在prefill后期,这篇直接省掉前面那段浪费。EarlyTom
08
音视频联合生成的第三条路 多模态既不用双塔后对齐也不用三模态全混,给原生的细粒度音画同步一个新解法。Native Audio-Visual Alignment
09
把文字题渲染成图片喂给VLM,性能就崩了 多模态这篇追这种「载体敏感」偏差的来源。LoMo
10
稠密检索打高分的理由,从embedding层做机制级解释 可解释性把一直是黑箱的相关性打分讲清楚。Xetrieval
11
用自演化锚点松开自回归视频对首帧的过度依赖 视频生成不再被首帧绑死。AdaState
12
让rewriter和encoder互相迭代共训 检索工具检索里口语化query和技术化API词汇对不上,这篇让两端一起进化。CoHyDE
13
不靠专用3D编码器、也不靠3D VQA微调,给VLM注入3D空间先验 多模态补几何推理短板。Beyond 3D VQAs
14
生成式4D神经物体运动学 AI for Science让静态3D物体在不同物理条件下生成真实的时序形变。NeuROK
15
科学假设发现的交互式助手 AI for Science把发散探索和收敛细化两步合到一个工作流里。MOOSE-Copilot

今日观察

「世界模型」这个标签正被批量贴到视频扩散模型上,而今天的论文恰好把这场升级的两半同时摆上了桌:minWM在埋头搭工程底座,要让视频模型真正能实时跑、可交互;YoCausal则在用倒放真实视频这种近乎零成本的反事实,去戳穿生成逼真和理解因果之间的缝。把这两篇放在一起看,真正的信号不是「世界模型又火了」,而是一边在加速把视频模型部署成世界模型,一边已经在悄悄备好检验这块招牌是否名副其实的工具——能力推进和可验证性,这次罕见地同步出现了。

如果你正押注「视频即世界模型」,别被流畅的demo带节奏:把YoCausal这类因果向基准纳入自己的验收清单,先确认手里的模型是真懂物理,还是只把时间统计规律背得熟。