今日概览
- 35B摸到万亿参数级表现,赌的是横向而非纵向:Agents-A1不扩参数,改用平均45K token的长程轨迹和异构能力堆叠,在部分benchmark上对标Kimi-K2.6、DeepSeek-V4-pro这类1T模型——但「打平」只在特定任务成立。
- 194个赞投给Orca的野心:它想用统一的world latent space和Next-State-Prediction收编「理解/预测/行动」,作者却自称这只是preview——愿景很大,落地很早。
- 异步流水线的「代价」可能被高估:梯度滞后伤不伤,取决于优化器——AdamW明显退化,较新的Muon对one-step延迟很鲁棒,10B规模下异步和同步的差距被抹平。
- 表格基础模型的「通用」只在舒适区成立:11模型×142数据集的评测显示,TFM只在小/中等规模IID数据上领先,一旦变大、变高维、非IID,树模型重新占上风。
- 卡住移动端3D渲染的不是画质,是球谐开销:Flux-GS用蒙特卡洛能量聚合把高阶SH的推理和存储成本砍下来,给AR、端侧3D一条降本路线。
重点关注
01 Agent 35B想摸到万亿参数的表现,赌的是横向而非纵向
增强agent能力的行业默认路径是纵向做——把底座模型堆得更大。Agents-A1把杠杆换到了另一根轴:参数只有35B(MoE架构),改为横向扩展agent horizon。具体做法是搭一套长程「知识-动作-观察-验证」基础设施,产出平均长度45K token的agentic轨迹,再用三阶段配方训练——全域SFT对齐、分域训练teacher模型、最后用多teacher分域路由的on-policy蒸馏把六个异构领域统一进一个可部署的student里。论文声称这样能摸到万亿参数级的表现,对比对象是Kimi-K2.6、DeepSeek-V4-pro这类1T模型。不过「万亿参数级表现」这个说法要打个问号:它在SEAL-0(56.4)、IFBench(80.6)这几个benchmark上确实领先,但在SciCode、HLE、BrowseComp上只是「competitive」——具体压过谁、在哪些任务上成立,需要读者自己对着榜单核,别被一句话带过。真正值得关注的信号不是那个35B打平1T的数字,而是它把「该往哪投」这个问题重新定义了:对养不起前沿模型的团队,投资去建长程轨迹基础设施,可能比继续堆参数更划算。
原文:Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent
02 模型架构 194个赞投给的是方向,还是一份还没落地的路线图?
一天拿到194个upvote,社区显然在为Orca的野心买单:它想用一个统一的world latent space,把「理解、预测、行动」塞进同一个训练目标——用Next-State-Prediction(预测下一个世界状态)替代各自为战的next-token、next-frame、next-action。数据规模也够唬人:12.5万小时视频加1.6亿事件标注,预训练完冻结主干,只训练轻量解码器就能同时做文本生成、图像预测和具身动作。但作者自己在摘要里就写了「initial instantiation」,还专门留了一节讨论局限——翻译过来就是:愿景很大,落地很早。真正的信号不在「打平同规模专用模型」这个结论上,而在它敢不敢公开三个下游任务里最弱的那个数字,以及latent能不能真的随规模一起变强,这些都得看全文才能判断。
原文:Orca: The World is in Your Mind
03 训练优化 异步流水线的「代价」,可能被高估了
同步流水线并行会在pipeline bubble里让GPU空转,异步能把这些空隙填满,但代价是梯度会滞后一步(gradient staleness)。业界一直觉得这种滞后会让训练不稳定,所以像PipeDream-2BW这种恒定one-step延迟的调度方案很少有人真用。这篇的核心判断是:滞后到底伤不伤,主要取决于你用什么优化器,而不是异步本身的原罪——老牌的AdamW确实会明显退化,但较新的Muon对one-step延迟表现出很强的鲁棒性。作者还补了一个受Error Feedback启发的通用修正项,并给了Muon收敛性的理论支撑,在最大10B参数的模型上把异步和同步的性能差距基本抹平了。当然这只看了摘要,更大规模和长训练下的稳定性还需要看全文和后续复现。
04 评测 表格基础模型的「通用」,只在舒适区里成立
表格基础模型(tabular foundation model,直接对表格数据做预测的大模型)这两年被学界和产业同时热捧,但它的评测软件和协议是碎的——模型研究者手里只有几个标准benchmark,而这些benchmark恰恰是TFM本来就擅长的场景,最难啃的情况被系统性排除在外。BeyondArena把跨学科、跨任务类型的评估收拢成一个统一框架,覆盖时序、分组等非IID场景,以及带文本、高基数特征的真实数据。跑完11个模型×142个数据集的结论有点扫兴:TFM只在小到中等规模的IID数据上领先,一旦数据变大、变高维、或分布不再独立同分布,传统的树模型和深度学习反而重新占上风。也就是说,「基础模型」这个名号目前更多是营销而非能力描述——它的泛化边界比热度暗示的要窄得多。这不是说TFM没用,而是提醒:在把它塞进真实表格业务前,先确认你的数据长得像不像它的舒适区。
原文:Beyond IID: How General Are Tabular Foundation Models, Really?
05 推理加速 3D高斯的画质早就够了,卡住移动端的其实是这个
3D Gaussian Splatting做新视角合成的画质已经不是问题,真正压在移动端上的是高阶球谐函数(SH,用来描述物体表面随视角变化的光照)——它带来的推理和存储开销才是瓶颈。Flux-GS的思路是把这块开销砍下来而不是重新提画质:用蒙特卡洛采样把三阶球谐的镜面高光能量聚合进一个紧凑的低阶表示,避开了通常需要的蒸馏或预训练。它还补了两个务实的模块——一个在推理前给低阶SH预测偏移量来找回丢掉的高频细节,一个用多视角一致性来剪掉冗余的高斯点、防止单视角过拟合。摘要给的是「参数大幅下降、画质基本持平」这类定性结论,没有硬指标对比,所以具体压缩比和帧率还得看项目页和全文。定位很清楚:给AR、端侧3D、实时新视角合成的人一条具体的降本路线,而不是又一次刷画质。
原文:Monte Carlo Energy Aggregation for Mobile 3D Gaussian Splatting

也值得关注
今日观察
今天有意思的是,两篇都顶着「world model」名号的工作,却从相反两端出发。Orca拿了194个upvote,追的是最大化的野心:一个统一的world latent space,把理解、预测、行动全收进Next-State-Prediction,是研究路线图式的愿景。DreamForge-World则明确声明自己走的是「互补的另一根轴」——低算力适配、消费级GPU、实时可交互,主动把规模做小。同一个标签,一个在scale-up做宣言,一个在scale-down求可用。
这不是谁对谁错的问题,而是两条路眼下的成熟度差得很远。落点很实在:现在能真正上手玩起来的world model,几乎都堆在低算力那一端;而大一统的那条路,还停在preview。如果你想在产品里嵌一个可交互的世界模型,别等Orca这类宣言落地——去把DreamForge-World这种消费级GPU上就能跑的方案先拉下来试玩一轮,先摸清「可用」的边界在哪,再判断「野心」值不值得等。