模型压缩的几何直觉：折叠比剪枝更优

今日概览

模型压缩不一定要剪枝，ICLR 2026的理论和实验表明weight folding（低秩投影）在大多数压缩率下重建误差更小。
视频生成模型开始真正响应人的肢体动作。手指级别的控制精度让XR场景变得可交互，不再只是看。
VR对话Agent终于能看着你说话了：SARAH实时生成空间感知的全身动作，300 FPS，支持流式VR部署。

重点关注

01 推理加速压缩模型：折叠比剪枝好在哪？

结构化剪枝是部署大模型的标配操作——砍掉不重要的通道或层，模型变小，推理变快。但剪枝本质是沿坐标轴做投影，把某些维度直接归零。Folding换了个思路：通过weight clustering做低秩投影，不是砍掉维度，而是把相近的权重「折叠」到一起。作者从投影几何的角度证明了，在秩距离为1的条件下，folding的参数重建误差严格小于pruning。实验覆盖了1000+个checkpoint（ResNet、ViT、CLIP、LLaMA系列），在中高压缩率区间folding的压缩后精度普遍更高，只在某些特定训练配置下pruning才反超。对做部署优化的团队来说，这意味着「默认剪枝」的惯性可能需要重新审视——至少应该把folding加入对比基线。

剪枝是坐标轴投影、folding是低秩投影，后者重建误差理论上更小1000+模型checkpoint验证中高压缩率下folding普遍占优不需要校准数据，即插即用替代现有剪枝流程

原文：Cut Less, Fold More: Model Compression through the Lens of Projection Geometry

02 多模态视频世界模型终于能跟踪你的手了

XR（扩展现实）对视频生成有个特殊需求：模型不只要生成好看的画面，还要实时响应用户的头部姿态和手部动作。目前的视频世界模型大多只接受文本或键盘这类粗粒度输入，离「用手去摸虚拟物体」还很远。Generated Reality做的事是在diffusion transformer上加入头部6DoF位姿和关节级手部姿态的条件控制，训练一个双向视频扩散模型作为teacher，再蒸馏成因果式的交互系统，能流式生成第一人称虚拟环境。用户实验显示，参与者感受到的操控感显著高于基线方法。这是视频生成从「被动观看」走向「主动交互」的一步，对做XR产品的团队是直接相关的技术信号。

首个同时条件化头部位姿和关节级手部姿态的视频世界模型从双向teacher蒸馏到因果模型，实现流式交互生成XR场景的视频生成正从观看转向操控

原文：Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

03 多模态 VR数字人终于知道你站在哪了

做对话式数字人最常见的短板不是嘴型不对、不是手势不自然——是它不看你。你绕到它侧面，它还对着前方打手势。SARAH解决的就是这个空间感知问题：输入用户的位置和双人对话音频，输出包含朝向、眼神、手势的全身动作。架构用了因果transformer VAE加flow matching，音频和用户轨迹作为条件。一个有意思的设计是眼神接触的强度可以在推理时用classifier-free guidance调节，不需要重新训练。在Embody 3D数据集上达到SOTA，速度超过300 FPS，比非因果基线快3倍，已在实时VR系统上验证部署。对做数字人或远程协作产品的团队来说，空间感知是区分「工具」和「存在感」的关键。

首个实时因果式空间感知对话动作生成方法，300+ FPS眼神接触强度推理时可调，不需重训空间感知是数字人从「动画」变成「存在」的关键缺失能力

原文：SARAH: Spatially Aware Real-time Agentic Humans

也值得关注

离线RL用flow model做critic正则化 训练优化Flow Actor-Critic在D4RL和OGBench上刷新SOTA，利用flow的表达力防止Q值在数据外区域爆炸。ICLR 2026。链接

Agent记忆不必全用raw log AgentTierMem在摘要不够时才回溯原始记录，token消耗减少54%、延迟降低61%，精度只掉2个点。链接

多实例生成的属性泄漏问题有了系统方案 图像生成DEIG用实例级masked attention隔离不同物体的语义，AAAI 2026。链接

VLA模型缺3D空间理解？用残差流对齐解决 机器人ROCKET只用4%计算量在LIBERO上达到98.5%成功率。链接

LLM指导RL不必一直在线 AgentMIRA把LLM的知识存入记忆图，后续训练只查图不查模型，LLM调用量大幅减少。ICLR 2026。链接

向量检索的过滤策略选择可以学出来 检索学习型查询规划在filtered ANN上实现4倍加速，90%+召回。链接

医学问答不能忽略患者条件 AI for ScienceCondMedQA是首个条件化生物医学QA基准，CGR框架根据患者条件动态剪枝知识图谱推理路径。链接