视频世界模型卡24%，越狱只压几个头

今日概览

物理穿帮才是视频世界模型的真瓶颈，不是画质：PhysisForcing给接触和形变区域加物理约束，把作为机器人世界模型的闭环成功率从16%提到24%——方向对，但绝对值仍低。
奖励涨了，图却悄悄变差：NormGuard发现RL后训练会让模型范数膨胀5%-15%，这是个奖励代理测不出、却能直接拿去自查的掉质信号。
越狱没有抹掉安全特征，只压制了少数注意力头：关掉几个早期层的「易受攻击头」就能让模型照做有害请求，而中间层的安全头依旧激活——读它即可无训练检测。
大厂把「论文助手」做成投稿前评审工具：Google的PAT用推理时扩展找深层错误，SPOT基准召回比zero-shot高34%，定位是辅助验证而非替代裁决。

重点关注

01 视频生成把视频模型当机器人世界模型，物理穿帮是真实瓶颈

越来越多人把视频生成模型当成机器人的「世界模拟器」——让模型先预演一段操作，再据此决策。但问题是通用视频模型和机器人微调过的模型都会生成物理上不可能的画面：轨迹突然跳变、手和物体穿模。PhysisForcing做了件务实的事，先定位不稳定的两个来源——运动物体的形变，以及接触瞬间各实体之间不合理的时空关联——再针对这些「物理信息密集」的区域加约束，用一个像素级的轨迹对齐损失和一个语义级的关系对齐损失（后者借一个冻结的视频理解编码器提取区域间关系）去强化监督。效果上，在R-Bench上比vanilla微调多提升7.1%和3.7%（相对基线总提升22.3%和9.2%）；更值得看的是闭环指标——作为世界模型在动作规划协议下，闭环成功率从16%提到24%。这个绝对值还很低，说明视频当世界模型离可靠还有距离，但它至少证明了物理约束确实补得上一部分，而不只是把画面修得好看。摘要只有4个upvotes、信息有限，高分辨率和长时序下能不能稳住得看全文确认。

视频模型当机器人世界模型的真正障碍是物理穿帮（轨迹跳变、穿模），不是画质做embodied方向的团队值得关注这条约束路线闭环成功率16%→24%说明方向对但绝对水平仍低，别急着把视频世界模型放进生产决策环。

原文：PhysisForcing: Physics Reinforced World Simulator for Robotic Manipulation

02 图像生成奖励涨了图却悄悄变差，范数膨胀是个可自查的信号

用RL给flow-based图像生成器做后训练，奖励分数会涨，但感知质量常常同步下滑——而且这种掉质恰恰是奖励代理本身测不出来的。NormGuard找到了一个能直接拿去自查的结构信号：跨NFT、AWM、DPO三种后训练方法，RL都会让模型每步的速度范数（velocity norm，可以理解为模型在每一步生成中「用力的大小」）相对参考模型膨胀5%到15%。更有意思的是排错结论：这种膨胀已经被「焊死」进了权重里，推理时把范数缩回去既不提奖励也修不好画质；而伴随分析又表明，压制这种膨胀并不会损失奖励信号。所以正确的做法是在训练阶段加约束——NormGuard用一个只在范数超标时才激活的hinge惩罚项，在保住奖励的同时改善了画质，而且步数越少（few-step推理）增益越明显。

用DPO/RLHF调图像模型时，奖励涨不等于图变好，范数膨胀5%-15%是个可监测的掉质信号推理时缩范数是无效的「事后补救」，问题得在训练阶段解决这是个能直接拿去自查的诊断指标，做few-step部署的团队尤其值得关注。

原文：NormGuard: Reward-Preserving Norm Constraints in Flow-Matching Reinforcement Learning

03 安全对齐越狱成功的那一刻，模型其实还「知道」这是有害请求？

一直以来越狱攻击为什么有效都偏玄学，这篇给了个意外的机制答案：攻击并没有把模型的安全特征整体抹掉，而是只压制了特定的注意力头。研究区分出两类功能不同的头——早期层的「易受攻击头」（ACHs）会被攻击压下去，中间层的「安全对齐头」（SAHs）即便攻击得逞也照常激活。消融实验把因果链坐实了：只关掉少数几个ACHs，就能让模型对本该拒绝的请求乖乖照做；而攻击压制ACHs靠的正是越狱模板里那些特定token。最反直觉的是，既然内部安全信号还在，那只要直接读这些持续激活的SAHs——不训练、不微调——就能拿到有竞争力的有害检测效果，而且对对抗攻击很稳。

越狱从「整体绕过对齐」变成可定位的电路问题，防御可以针对具体的头而非整体重训安全信号在越狱成功后仍存活于中间层，给了一条无需训练的检测旁路机制基于单模型注意力头分析，跨模型和真实攻击分布下能否复现还需看全文确认。

原文：Robust Harmful Features Under Jailbreak Attacks: Mechanistic Evidence from Attention Head Specialization in Large Language Models

04 Agent Google把论文助手做成投稿前评审工具，边界划在辅助验证

「AI能不能做同行评审」已经讨论很久，但Google这篇给的是一个落地样本：PAT(Paper Assistant Tool)是个agentic评审框架，吃进整篇论文，做的事很具体——核对理论推导、验证实验、提改进建议、找潜在漏洞。它没指望一次模型调用搞定，而是用推理时多次扩展(inference scaling)来挖更深的问题，在SPOT数学错误基准上的召回率比zero-shot提升34%。更值得注意的是部署方式：它在STOC和ICML两个会议作为投稿前工具给作者用，定位是早期抓错、减轻审稿人负担，而不是替审稿人下结论——决定权仍在人手里。这是观察agent落到「专业判断类任务」的一个真实参照：边界划在辅助验证，而非替代裁决。

agent落地专业判断任务，当前可行的定位是「投稿前自查/辅助验证」而非替代裁决，值得做评审类产品的团队参考inference scaling对找深层错误确有效果，34%召回提升靠的是多次推理而非单次调用SPOT只是数学错误基准，对实验造假、新颖性这类软判断能做到哪还需看全文确认。

原文：Towards Automating Scientific Review with Google's Paper Assistant Tool

也值得关注

从随手拍的单目视频里抠出4D多物体交互喂给VLA 机器人量产真机交互数据的另一条路，和PhysisForcing构成「挖真实数据」对「合成数据」的两面。链接

VLA长程操作误差累积，根源是固定权重的静态特征融合 机器人S²-VLA用状态空间引导动态融合来治。链接

去中心化、部分可观测下，LLM多智能体常和队友/环境状态错位 AgentLLawCo显式学「合作律」来建模具身多体行为。链接

神经视频编解码器效率超经典却难部署，跨硬件结果不确定 视频生成MLVC面向真实多平台落地做学习型编解码。链接

提对抗鲁棒性不靠剪枝/掩码 安全对齐同时学「放大」和「衰减」非鲁棒特征，方法很轻。链接

细粒度技能评估（体育、手术）需要分步视觉推理 多模态把潜在视觉扩散和蒙特卡洛树搜索结合做逐步判断。链接

场景文字检测一遇分布漂移就掉 多模态TextDS不靠大规模预训练，做参数高效的表示对齐。链接

双人对话面部动画要同时对上高层认知意图和低层运动反射 多模态现有方法两头都没顾好，MindFlow同时协调两端。链接

遥感图像变化描述长期受限于小模型容量 多模态RSICCLLM用多模态大模型来描述双时相变化。链接

化学反应网络作为生化层面的概率计算基底如何约简 AI for Science朝细胞级自适应编程迈出的一步。链接

今日观察

今天有一组具身/VLA的工作不约而同绕开了模型本身，集体去攻一个更underrated的瓶颈：动作数据从哪来。PhysisForcing走合成路线——把视频模型改造成物理可信的世界模拟器，让它自己预演出可用的rollout；HAT-4D走开采路线——从海量随手拍的单目视频里把4D多物体交互抠出来喂给VLA。一个造数据、一个挖数据，方向相反，攻的却是同一个稀缺：真机交互数据贵且少。再算上S²-VLA在动作端治长程误差累积，今天的机器人叙事不再是「又一个更强的策略」，而是大家开始默认——真正卡脖子的是数据管线，不是模型架构。

落到行动上：如果你在做具身/VLA，下次评估一个方案前，先把「它的训练数据从哪来、能不能规模化」摆到和「策略多强」同等的位置去问；模型架构的边际收益正在让位给数据获取这件更脏更难的事。