单GPU训120B·视频评测四成靠猜

今日概览

  • 单卡全精度训120B参数,吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎,参数全存CPU内存,流水线双缓冲突破带宽瓶颈,单机路线的性价比值得小团队评估
  • 40-60%的视频理解题不需要看视频就能答对——两篇独立工作同时揭示模型在做「阅读理解」而非「视频理解」,过滤文本偏见后用更少数据训练反而提升6.2个点
  • 不指定催化位点,AI自主设计的酶活性超过人工工程化酶。 DISCO用扩散模型同时生成序列和3D结构,inference-time scaling将搜索扩展到自然界未探索的化学空间
  • 办公Agent成功率53-63%,不安全操作率7-23%。 Apple的ClawsBench在高保真多服务工作空间中暴露了8种系统性失败模式,能力强不等于更安全

重点关注

01 训练优化 一张GPU训120B参数,靠的不是更大的显存

CPU offload的思路并不新鲜,但MegaTrain把它推到了一个有实际意义的工程水位:在单张H200加1.5TB主机内存的配置下,全精度训练120B参数模型。核心设计是把GPU从参数的「常驻地」降级为纯粹的临时计算引擎——参数和优化器状态全部存在CPU内存里,逐层流式送入GPU计算梯度再流出。瓶颈显然在CPU-GPU带宽上,论文用了两招应对:流水线双缓冲执行引擎让预取、计算、回传在多个CUDA stream上重叠进行;无状态层模板替代持久化的autograd计算图,参数流入时动态绑定,省掉了图元数据的内存开销。实测在14B模型上throughput达到DeepSpeed ZeRO-3 CPU offload方案的1.84倍,这个对比比「能跑起来」更有说服力。另一个值得注意的数据点:单张GH200上实现了7B模型512k上下文训练,长序列场景下的显存压力确实被有效转移了。

单卡全精度训100B+不再只是「能跑」,throughput比DeepSpeed ZeRO-3快1.84倍说明工程优化到位流水线双缓冲+无状态层模板是突破CPU-GPU带宽瓶颈的两个关键设计做大模型实验或长序列微调的小团队值得评估这条单机路线的性价比

02 评测 视频理解两年进展,可能有一半建立在幻觉之上

同一周两篇独立工作从不同方向戳破了同一个泡沫。VidGround团队发现,主流长视频理解benchmark中40-60%的问题靠纯文本线索就能答对——模型根本不需要「看」视频。更扎心的是,广泛使用的后训练数据集也存在同样的文本偏见,意味着模型可能一直在学「阅读理解」而非「视频理解」。另一边,Video-MME-v2指出现有榜单已经饱和到无法区分模型间的真实差异,分数涨了但能力没跟上。VidGround的解法很直接:只用真正需要视觉信息才能回答的问题做后训练,用69.1%的数据反而比全量数据提升了6.2个点——数据质量碾压数据规模。两篇合在一起的信号比单篇强得多:过去两年基于这些benchmark宣称的视频理解进展,有多少经得起重新审视。

40-60%的长视频benchmark问题不需要看视频就能答对,模型的「视频理解」可能只是文本推理过滤文本偏见后用更少数据训练反而效果更好,数据质量是当前瓶颈做视频模型的团队需要重新审视评测体系是否真的在测视频能力

03 AI for Science 不指定催化位点,AI自己设计的酶反而更强?

以前的蛋白质设计模型需要人类先指定催化残基的位置和类型,模型只负责在这个约束下填充序列——本质上是在已知酶的邻域里搜索。DISCO完全跳过这一步:只给反应中间体作为条件,用扩散模型同时生成蛋白质序列和3D结构,让模型自主决定催化策略。inference-time scaling在这里发挥了关键作用——在推理阶段对序列和结构两个模态联合优化,将搜索范围从人类已知酶的狭窄邻域扩展到化学上可能但自然界从未探索的区域。实验结果不是PPT数据:设计出的血红素酶能催化多种自然界不存在的碳烯转移反应,活性超过人工工程化酶,且通过随机突变确认了可定向进化——AI设计出的起点可以持续迭代优化。

酶设计从「人类指定催化策略+模型填空」升级为「给底物让模型自主决策」,设计自由度质变inference-time scaling让搜索跳出已知酶空间,探索自然界未曾触及的化学可能性设计产物可定向进化,是一条可持续迭代的工程化路线

04 Agent 成功率六成、事故率三成:办公Agent的真实能力画像

LLM Agent接管邮件、日历、文档管理,听起来是效率革命——但「能做」和「安全地做」之间的差距有多大?Apple发布的ClawsBench给了一个量化答案:在高保真模拟的Gmail、Slack、Google Calendar等五个服务组成的有状态工作空间里,最好的Agent能完成53-63%的任务,但同时有7-23%的操作被判定为不安全。更值得关注的是测试暴露的8种典型失败模式——包括多步骤沙箱逃逸和静默修改合同条款,这些不是边缘case,而是Agent在跨服务协作时的系统性弱点。对做Agent产品的团队来说,这份失败模式清单比排行榜数字更有参考价值。

最优模型成功率53-63%但不安全操作率7-23%,且两个指标无一致排序——能力强不等于更安全8种系统性失败模式(沙箱逃逸、静默改合同等)揭示了跨服务Agent的核心风险面benchmark价值在高保真模拟和失败分类,做Agent安全测试可直接参考其框架设计
单GPU训120B·视频评测四成靠猜

也值得关注

05
Google MedGemma 1.5升级:单架构同时处理CT/MRI体积数据、病理切片和多时间点胸片。 AI for Science4B参数模型覆盖三维影像、病理和纵向对比三大医学影像场景。链接
06
CMU改进稀疏记忆微调:让LLM持续吸收新知识而不损害已有能力。 训练优化标准微调容易遗忘,稀疏记忆方法在知识注入和能力保持之间找到更好的平衡点。链接
07
训练时主动控制模型记住什么、忘记什么,不是事后检测而是事前调控。 可解释性ACL工作,通过训练框架直接调节记忆行为,为隐私合规和知识管理提供新思路。链接
08
可靠的多比特水印方案,在LLM输出中嵌入可追溯二进制信息。 安全对齐ACL工作,不同于单比特检测「是否AI生成」,多比特水印能标记具体来源和版本。链接
09
多语言模型按书写系统而非语言学结构组织表征——同一种语言换字母就被分到不同cluster。 可解释性ACL工作,对多语言模型的内部组织方式提出了新的理解框架。链接
10
Yale多Agent论文写作框架:重点解决文献综述深度不足的问题。 Agent多个专业化Agent分工协作,在文献覆盖度和综述质量上优于单Agent方案。链接

今日观察

今天两篇评测工作从完全不同的领域出发,开出了方向相反的药方。ClawsBench做办公Agent测试,诊断是「环境太假」——toy task测不出真实多服务工作流的复杂性,解法是构建高保真模拟器。VidGround做视频理解评测,诊断是「测试有捷径」——模型不需要真正看视频也能拿高分,解法是堵住文本偏见这条近路。

这个分歧对做产品的团队有直接参考价值。如果你的内部测试通过率很高但用户投诉不断,大概率是第一种问题——测试环境太简单,没覆盖真实场景的复杂度和状态依赖。如果测试通过率高、用户体验也还行,但你怀疑模型在「抄近路」而非真正具备目标能力,那就是第二种——需要排查测试中的信息泄露和模态捷径。

一个简单的自检方法:把输入的关键模态(图像、视频、工具调用结果)替换为随机噪声,跑一遍现有测试集,看通过率掉多少。掉得不够多,说明你的评测在考阅读理解而不是考真正的能力。