0.5概率即逐字背诵，倒放视频测因果

今日概览

把LoRA反过来当量尺，量出模型参数化记忆的真实容量：记忆容量服从可提前估算的幂律，token预测概率0.5是逐字背诵的临界线，rank该开多大、何时切全量微调不再靠手感。
统一检索的关键不是接口而是别丢结构：OmniRetrieval用「路由到各源原生引擎」替代「压进共享向量空间」，在309个知识库上跑赢单源baseline，保住了schema和图结构的价值。
把真实视频倒放就成了零成本反事实：YoCausal用倒放视频当违反预期的负样本，测出13个视频扩散模型能感知时间箭头却说不清因果，「生成逼真」和「理解物理」是两回事。
图像agent从「改prompt」转向「自己写代码动笔」：GenClaw让LLM用SVG/HTML/Three.js把构图钉死成可执行草图，再交给生成模型上色，价值在可控性而非画质。
agent护栏堆满「轻量」「实时」，真新意藏在分类法里：AgentDoG 1.5的实质创新是更新后的开放世界agent风险taxonomy，「1k样本追平闭源」的数字要打折看，模型与数据集已开源可自行验证。

重点关注

01 训练优化把LoRA反过来当量尺，量出模型记忆的真实容量

大家用LoRA给模型打知识补丁时，rank开多大、什么时候塞不下，基本全凭手感。这篇工作换了个用法：把LoRA当成一把可控的「记忆探针」，去测量模型参数化记忆到底能装多少。结论是一条「记忆律」——损失下降ΔL与有效参数量、序列长度之间是一条稳定的幂律关系，意味着记忆容量不是玄学，而是可以提前估算的。更细的发现是token级别存在一个明确的相变：在贪心解码下，只要预测概率超过0.5，就足以让模型逐字背出这个token。基于这点他们做了MemFT，把训练预算动态倾斜到那些还没过0.5阈值的token上，用同样的成本换更高的记忆保真度。作者的实测里，MemFT在不加训练预算的前提下明显抬升了目标事实的逐字复现率，相当于把原本浪费在「早已记牢」token上的算力挪给了濒临阈值的难点，等于免费换来一截保真度。至于这条幂律的边界——当待记忆的事实量逼近某个rank对应的容量上限时，ΔL会偏离直线、进入饱和，这个拐点恰恰是该停止堆rank、改切全量微调的信号；它在更大rank和更长序列上是否依然成立，仍需看全文的外推实验确认。但这个把记忆容量量化下来的框架本身，已经比又一个微调trick更有价值。

记忆容量可按幂律提前估算，rank和能塞下多少事实不再靠拍脑袋token预测概率0.5是逐字背诵的临界线，可作为判断「记没记住」的硬指标当新事实量超出LoRA容量上限时，与其堆rank不如及早切全量微调

原文：How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

02 检索统一检索的难点不是接口，是别把结构信息搞丢

做RAG的团队手里常攒着好几套检索器：文本走向量库，表格走SQL，知识图谱又是另一套查询语言，跨源问一个问题全靠胶水代码拼。OmniRetrieval的思路是加一层统一入口：接一句自然语言，判断该查哪些源，再把查询翻译成各源的原生语言、丢给各自的执行引擎跑。它特意没走「把所有源压进一个共享向量空间」的捷径——那样做会抹掉schema、本体、组合算子这些让结构化数据值钱的东西。在覆盖13个数据集、309个知识库的benchmark上，它的表现超过了单源baseline，说明这个「路由+原生执行」的架构是站得住的。不过摘要只给了「超过baseline」这种定性结论，具体在每类源上领先多少、路由判断错了怎么兜底，得看全文确认。

跨源检索的正确解法是路由到各源原生引擎，而非统一embedding，建检索系统的人值得借鉴这个分层思路保留schema和图结构这类结构特性，比强行同构化更能发挥每个源的价值309个知识库的覆盖面够说明泛化性，但单源领先幅度和路由失败的兜底机制仍需看全文。

原文：OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

03 评测把视频倒放一下，号称世界模型的它们就露馅了

最朴素的测因果办法，居然是把真实视频时间倒放——水往杯里倒变成水自己飞回瓶口，物理上荒谬，于是天然成了一批零成本的「违反预期」负样本。YoCausal就靠这招搭了两级评测：先用去噪损失衡量模型能不能察觉时间箭头（RSI），再用一个VLM把数据切成「真因果」和「只是时序相关」两类，把背下来的统计规律和真正的因果推理分开看（CCI）。意外的是，13个主流视频扩散模型测下来，能感知时间方向并不等于理解因果——模型知道这段倒放了，却说不清为什么不该这样，离人类水平的因果认知还差一大截。换句话说，「生成得足够真实」和「理解背后的物理因果」是两回事，前者达标不代表后者跟上了。

把真实视频倒放当反事实负样本，是个几乎零成本且可无限扩展的评测思路，值得做世界模型的团队借鉴感知时间箭头≠理解因果，别把生成逼真当成模型懂物理的证据当前视频扩散模型距离真正的「世界模型」仍有明显差距，相关宣传需要打折扣看。

原文：YoCausal: How Far is Video Generation from World Model? A Causality Perspective

04 图像生成当图像agent学会自己写代码动笔，而不只是反复改prompt

现在的图像生成agent有个绕不开的尴尬：它能理解需求、能调工具，却对画布本身没有直接控制权——底层黑盒模型给什么就是什么，agent只能反复重写prompt再重生成，像个只会换措辞催稿的甲方。GenClaw换了个分工：让LLM先用代码（SVG、HTML、Three.js）把构图、布局、几何关系画成一张可执行草图，把位置、比例这些结构性的东西精确钉死，再交给图像模型补材质和光影——这正模仿了人类画家「先构思、再起稿、最后上色」的流程，代码成了语言推理和像素合成之间一个可控的中间画布。从论文看，这条路线的价值在可控性和可解释性，而非画质本身；但agent写代码起稿的能力上限、以及代码草图和最终成图之间的偏差有多大，仍需看全文和实测才能下结论。

agentic图像生成的瓶颈不在画质，而在对画布缺乏直接控制权——代码起稿是一条把结构关掉黑盒的思路做精确排版、几何构图类生成的团队值得关注「代码作中间画布」这个范式但这是新方向的早期工作，可控性提升能否覆盖代码起稿本身的能力上限，待验证

原文：GenClaw: Code-Driven Agentic Image Generation

05 安全对齐 agent护栏堆了一堆「轻量」「实时」,真正的新东西藏在分类法里

摘要里lightweight、scalable、real-time一连串词读着很顺，但拆开看，这套框架真正动了刀子的只有一处：把agent安全风险的分类法（taxonomy）更新了，专门去覆盖Codex、OpenClaw这类开放世界agent跨环境执行带来的新型风险。剩下的卖点——0.8B到8B的小模型、只用约1k样本就追平GPT-5.4级别的闭源模型、Docker部署开销降两个数量级——单看数字都漂亮，但「约1k样本打平顶级闭源」这种说法通常高度依赖评测集的构造方式，容易在自家taxonomy定义的场景里自证。对从业者真正有参考价值的，是看它把哪些新的攻击面（比如agent调用工具、跨环境执行时的越权）纳入了分类，这部分认知能直接迁移到自己的防护设计里，而不是榜单分数。好在模型和数据集都开源了，与其信那串营销词，不如花时间去读那份新taxonomy自行验证。

框架的实质创新在更新后的agent风险分类法，小模型和样本效率的数字要打折看「1k样本追平闭源」高度依赖评测构造，自家taxonomy场景里容易自证模型与数据集已开源，做agent防护的团队值得直接读它的风险分类、而非采信跑分。

原文：AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

也值得关注

全栈开源的实时交互式视频世界模型 视频生成从数据构建到流式推理整条链路都开放，想自己跑世界模型的人值得看。minWM

把token压缩从prefill后期提前到视觉编码器阶段 推理加速视频理解的压缩通常发生在prefill后期，这篇直接省掉前面那段浪费。EarlyTom

音视频联合生成的第三条路 多模态既不用双塔后对齐也不用三模态全混，给原生的细粒度音画同步一个新解法。Native Audio-Visual Alignment

把文字题渲染成图片喂给VLM，性能就崩了 多模态这篇追这种「载体敏感」偏差的来源。LoMo

稠密检索打高分的理由，从embedding层做机制级解释 可解释性把一直是黑箱的相关性打分讲清楚。Xetrieval

用自演化锚点松开自回归视频对首帧的过度依赖 视频生成不再被首帧绑死。AdaState

让rewriter和encoder互相迭代共训 检索工具检索里口语化query和技术化API词汇对不上，这篇让两端一起进化。CoHyDE

不靠专用3D编码器、也不靠3D VQA微调，给VLM注入3D空间先验 多模态补几何推理短板。Beyond 3D VQAs

生成式4D神经物体运动学 AI for Science让静态3D物体在不同物理条件下生成真实的时序形变。NeuROK

科学假设发现的交互式助手 AI for Science把发散探索和收敛细化两步合到一个工作流里。MOOSE-Copilot

今日观察

「世界模型」这个标签正被批量贴到视频扩散模型上，而今天的论文恰好把这场升级的两半同时摆上了桌：minWM在埋头搭工程底座，要让视频模型真正能实时跑、可交互；YoCausal则在用倒放真实视频这种近乎零成本的反事实，去戳穿生成逼真和理解因果之间的缝。把这两篇放在一起看，真正的信号不是「世界模型又火了」，而是一边在加速把视频模型部署成世界模型，一边已经在悄悄备好检验这块招牌是否名副其实的工具——能力推进和可验证性，这次罕见地同步出现了。

如果你正押注「视频即世界模型」，别被流畅的demo带节奏：把YoCausal这类因果向基准纳入自己的验收清单，先确认手里的模型是真懂物理，还是只把时间统计规律背得熟。

今日概览

重点关注

01 训练优化 把LoRA反过来当量尺，量出模型记忆的真实容量

02 检索 统一检索的难点不是接口，是别把结构信息搞丢

03 评测 把视频倒放一下，号称世界模型的它们就露馅了

04 图像生成 当图像agent学会自己写代码动笔，而不只是反复改prompt