腾讯开源3D世界生成、VLM偏科探针

今日概览

  • 腾讯HY-World 2.0把3D世界生成做进工程可用:四阶段pipeline(全景→轨迹→视角扩展→多视图合成),文字或单图直接出可导航3DGS场景,开源对标闭源Marble。
  • 视觉任务的锅,其实是文字在背:Stanford的centroid替换探针在7个多模态模型上测出擦除文字侧的准确率代价是擦除视觉侧的4倍,顺着做对比解码单任务最高+16.9%,且不用重训。
  • VGF把RL微调重新框成最优传输:不显式参数化策略,沿价值梯度「搬运」参考分布的粒子,传输预算天然对接test-time scaling;思路干净,但HF只2赞,先列入观察。
  • 3PT给residual stream塞进「三相电」先验:hidden vector按cyclic channel切片、块间用Givens旋转保持相位对齐,123M规模比RoPE-Only困惑度降7.2%,但N=3和N=1统计上区分不开,验证规模有限。

重点关注

01 图像生成 腾讯把3D世界生成拆成四段流水线,对标闭源Marble

腾讯这次交出的HY-World 2.0是一套完整工程,不是某个单点模块。输入一段文字或一张图,输出可以在3DGS(3D高斯溅射)引擎里自由导航的场景——中间走了四步:先用HY-Pano 2.0生成全景底图,再用WorldNav规划相机轨迹,接着用WorldStereo 2.0基于关键帧扩展视角、保持跨帧一致性,最后用WorldMirror 2.0做多视图重建合成。更实用的是还附带了WorldLens渲染平台,支持IBL自动光照、碰撞检测、角色接入。benchmark上号称在开源里SOTA,和闭源Marble可比。四阶段里WorldStereo 2.0的跨帧一致性是最关键的一环——3D世界生成最大的坑一直是视角切换时的几何漂移和纹理跳变,前置这一步做稳,后面的多视图重建才有合理输入,也是HY-World相对只做单图/短视频的方案能撑起长距离自由导航的核心原因。HF 68赞不是噱头——开源3D世界模型的社区需求一直被低估,这种「全景→轨迹→扩展→合成」的pipeline思路,比任何单点新architecture对实际做产品的人都更有参考价值。

3D世界生成从研究demo进入工程可用阶段,文字/单图直接出可导航3DGS场景四阶段pipeline(全景打底→轨迹规划→视角扩展→多视图合成)比单点创新更值得借鉴做UGC、游戏、空间计算、具身仿真的团队应该优先评估这套开源栈,对标Marble但不用付费。

02 多模态 视觉任务的锅,其实是文字在背

按理说视觉任务做不好,问题应该出在视觉模块。但Stanford的一个极简探针给出了反直觉答案:把每个token替换成最近的K-means中心(相当于「擦除」该模态的结构信息),在7个主流多模态模型、三种架构上,擦除文字侧的准确率代价比擦除视觉侧高出4倍——即便是需要视觉推理的任务也一样,语言表征在压制视觉。顺着这个不对称做文字中心对比解码,单任务准确率最高提升16.9%,不用重训。更有意思的是标准微调模型增益明显(平均+5.6%),偏好优化过的只有+1.5%,暗示偏好优化可能无意中已经在调整模态平衡。这个探针最大的价值不是指标本身,而是它能直接套到任何VLM上做诊断。

多模态模型在视觉任务上的失败不是随机噪声,是结构性偏向语言模态,属于可测、可干预的问题centroid替换探针可直接套用到自己的模型上做诊断,不需要训练标准微调和偏好优化的差距暗示RLHF/DPO路线本身就在影响模态竞争,VLM训练策略选择多了一个考量维度

03 训练优化 用「搬运」代替参数化,RL微调能不能走第三条路?

behavior-regularized RL要在「别跑太远」和「能真正超越参考模型」之间找平衡,目前大模型上的两条主流路径——重参数化策略梯度和拒绝采样——一条难scale,一条太保守。VGF把这件事重新定义成一个最优传输问题:不显式参数化策略,而是把参考分布里的「粒子」沿着价值梯度一点点搬到更优的位置,搬多远由传输预算控制,这也自然对应上了test-time scaling。论文在D4RL、OGBench和LLM RL任务上都报了SOTA,思路本身干净。但HF只有2个赞,社区关注度不高,方法在大规模LLM RL finetuning上的实际稳定性和工程成本还需要更多复现来判断。

把behavior-regularized RL框成最优传输问题,绕开显式策略参数化这一层传输预算天然接住了test-time scaling的需求,思路顺但热度低、benchmark未经广泛验证,做RLHF/finetuning的团队可以先列入观察名单,不急于替换现有pipeline。

04 模型架构 residual stream里塞进「三相电」先验,真能泛化吗

3PT的做法是把hidden vector切成N个等大的cyclic channel,每层attention和FFN之间用Givens旋转保持各channel相位对齐。作者用三相交流电作类比——N=3时三个相位互相抵消,没有反相关对——并在垂直于channel的一维DC子空间里注入一个固定的r(p)=1/(p+1)位置profile,和RoPE正交组合。WikiText-103上123M参数,相对匹配的RoPE-Only baseline困惑度降7.2%,多出来的参数只有1,536个,收敛步数快1.93倍。问题在验证规模:123M参数、单数据集、三seed,N=3和N=1在统计上区分不开,作者自己也承认N更像是参数共享的旋钮而不是最优点。架构创新的通病是小规模好看的先验到scale上往往就被稀释掉——RoPE、Mamba、MoE都是经过两三年反复复现才真正立住的。

核心机制是把residual stream按相位切片并在block间旋转,属于几何结构先验而非加模块小规模数字漂亮但N=3和N=1无法区分,说明机制是否真的load-bearing还不确定架构创新值得存档,等更大scale和更多数据集复现后再考虑采用
腾讯开源3D世界生成、VLM偏科探针

也值得关注

05
CMU搭了一个模拟AI marketplace环境测多agent竞争动态 评测当retrieval系统和LLM同时争夺用户时,行为分布会被市场激励扭曲到什么方向。链接
06
APEX-MEM用半结构化记忆+时间推理应对长期对话里的记忆幻觉 Agent比纯扩大context window或朴素retrieval更稳,ACL接收。链接
07
Google的FoodSense让VLM从食物图预测味道、气味、质地甚至声音 评测多感官benchmark把视觉语言模型推向人类跨模态直觉。链接
08
Berkeley研究在发育规模数据下训练的LM是否和大模型一样形成跨句式共享的filler-gap表征 可解释性小模型里能看到的机制未必和大模型一致。链接
09
UW把用户记忆选择从「和query相似」升级到「对response有用」 检索LLM个性化里一个容易被忽略的反向信号。链接