腾讯开源3D世界生成、VLM偏科探针

今日概览

腾讯HY-World 2.0把3D世界生成做进工程可用：四阶段pipeline（全景→轨迹→视角扩展→多视图合成），文字或单图直接出可导航3DGS场景，开源对标闭源Marble。
视觉任务的锅，其实是文字在背：Stanford的centroid替换探针在7个多模态模型上测出擦除文字侧的准确率代价是擦除视觉侧的4倍，顺着做对比解码单任务最高+16.9%，且不用重训。
VGF把RL微调重新框成最优传输：不显式参数化策略，沿价值梯度「搬运」参考分布的粒子，传输预算天然对接test-time scaling；思路干净，但HF只2赞，先列入观察。
3PT给residual stream塞进「三相电」先验：hidden vector按cyclic channel切片、块间用Givens旋转保持相位对齐，123M规模比RoPE-Only困惑度降7.2%，但N=3和N=1统计上区分不开，验证规模有限。

重点关注

01 图像生成腾讯把3D世界生成拆成四段流水线，对标闭源Marble

腾讯这次交出的HY-World 2.0是一套完整工程，不是某个单点模块。输入一段文字或一张图，输出可以在3DGS（3D高斯溅射）引擎里自由导航的场景——中间走了四步：先用HY-Pano 2.0生成全景底图，再用WorldNav规划相机轨迹，接着用WorldStereo 2.0基于关键帧扩展视角、保持跨帧一致性，最后用WorldMirror 2.0做多视图重建合成。更实用的是还附带了WorldLens渲染平台，支持IBL自动光照、碰撞检测、角色接入。benchmark上号称在开源里SOTA，和闭源Marble可比。四阶段里WorldStereo 2.0的跨帧一致性是最关键的一环——3D世界生成最大的坑一直是视角切换时的几何漂移和纹理跳变，前置这一步做稳，后面的多视图重建才有合理输入，也是HY-World相对只做单图/短视频的方案能撑起长距离自由导航的核心原因。HF 68赞不是噱头——开源3D世界模型的社区需求一直被低估，这种「全景→轨迹→扩展→合成」的pipeline思路，比任何单点新architecture对实际做产品的人都更有参考价值。

3D世界生成从研究demo进入工程可用阶段，文字/单图直接出可导航3DGS场景四阶段pipeline（全景打底→轨迹规划→视角扩展→多视图合成）比单点创新更值得借鉴做UGC、游戏、空间计算、具身仿真的团队应该优先评估这套开源栈，对标Marble但不用付费。

原文：HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

02 多模态视觉任务的锅，其实是文字在背

按理说视觉任务做不好，问题应该出在视觉模块。但Stanford的一个极简探针给出了反直觉答案：把每个token替换成最近的K-means中心（相当于「擦除」该模态的结构信息），在7个主流多模态模型、三种架构上，擦除文字侧的准确率代价比擦除视觉侧高出4倍——即便是需要视觉推理的任务也一样，语言表征在压制视觉。顺着这个不对称做文字中心对比解码，单任务准确率最高提升16.9%，不用重训。更有意思的是标准微调模型增益明显（平均+5.6%），偏好优化过的只有+1.5%，暗示偏好优化可能无意中已经在调整模态平衡。这个探针最大的价值不是指标本身，而是它能直接套到任何VLM上做诊断。

多模态模型在视觉任务上的失败不是随机噪声，是结构性偏向语言模态，属于可测、可干预的问题centroid替换探针可直接套用到自己的模型上做诊断，不需要训练标准微调和偏好优化的差距暗示RLHF/DPO路线本身就在影响模态竞争，VLM训练策略选择多了一个考量维度

原文：The Cost of Language: Centroid Erasure Exposes and Exploits Modal Competition in Multimodal Language Models

03 训练优化用「搬运」代替参数化，RL微调能不能走第三条路？

behavior-regularized RL要在「别跑太远」和「能真正超越参考模型」之间找平衡，目前大模型上的两条主流路径——重参数化策略梯度和拒绝采样——一条难scale，一条太保守。VGF把这件事重新定义成一个最优传输问题：不显式参数化策略，而是把参考分布里的「粒子」沿着价值梯度一点点搬到更优的位置，搬多远由传输预算控制，这也自然对应上了test-time scaling。论文在D4RL、OGBench和LLM RL任务上都报了SOTA，思路本身干净。但HF只有2个赞，社区关注度不高，方法在大规模LLM RL finetuning上的实际稳定性和工程成本还需要更多复现来判断。

把behavior-regularized RL框成最优传输问题，绕开显式策略参数化这一层传输预算天然接住了test-time scaling的需求，思路顺但热度低、benchmark未经广泛验证，做RLHF/finetuning的团队可以先列入观察名单，不急于替换现有pipeline。

原文：Reinforcement Learning via Value Gradient Flow

04 模型架构 residual stream里塞进「三相电」先验，真能泛化吗

3PT的做法是把hidden vector切成N个等大的cyclic channel，每层attention和FFN之间用Givens旋转保持各channel相位对齐。作者用三相交流电作类比——N=3时三个相位互相抵消，没有反相关对——并在垂直于channel的一维DC子空间里注入一个固定的r(p)=1/(p+1)位置profile，和RoPE正交组合。WikiText-103上123M参数，相对匹配的RoPE-Only baseline困惑度降7.2%，多出来的参数只有1,536个，收敛步数快1.93倍。问题在验证规模：123M参数、单数据集、三seed，N=3和N=1在统计上区分不开，作者自己也承认N更像是参数共享的旋钮而不是最优点。架构创新的通病是小规模好看的先验到scale上往往就被稀释掉——RoPE、Mamba、MoE都是经过两三年反复复现才真正立住的。

核心机制是把residual stream按相位切片并在block间旋转，属于几何结构先验而非加模块小规模数字漂亮但N=3和N=1无法区分，说明机制是否真的load-bearing还不确定架构创新值得存档，等更大scale和更多数据集复现后再考虑采用

原文：Three-Phase Transformer

也值得关注

CMU搭了一个模拟AI marketplace环境测多agent竞争动态 评测当retrieval系统和LLM同时争夺用户时，行为分布会被市场激励扭曲到什么方向。链接

APEX-MEM用半结构化记忆+时间推理应对长期对话里的记忆幻觉 Agent比纯扩大context window或朴素retrieval更稳，ACL接收。链接

Google的FoodSense让VLM从食物图预测味道、气味、质地甚至声音 评测多感官benchmark把视觉语言模型推向人类跨模态直觉。链接

Berkeley研究在发育规模数据下训练的LM是否和大模型一样形成跨句式共享的filler-gap表征 可解释性小模型里能看到的机制未必和大模型一致。链接

UW把用户记忆选择从「和query相似」升级到「对response有用」 检索LLM个性化里一个容易被忽略的反向信号。链接