百度发布万亿参数统一多模态模型ERNIE 5.0

今日概览

百度发布万亿参数统一多模态模型ERNIE 5.0，文本、图像、视频、音频从零开始联合训练，超稀疏MoE架构加弹性训练，一次预训练产出一族不同规模的子模型
多Agent强化学习做「宽度扩展」，4B小模型组团干过671B单体。WideSeek-R1并行子Agent越多效果越好，信息检索任务上4B集群匹敌DeepSeek-R1
PPO的核心机制不适合LLM：DPPO指出ratio clipping在大词表下系统性地过度约束低概率token、放任高概率token漂移，用直接散度约束替换后训练更稳
多模态PRM训练数据存在大量冗余，10%的数据就够了。BIS筛选策略只用十分之一数据就达到全量性能

重点关注

01 多模态百度的万亿参数野心：一次训练，一族模型

「统一多模态」这个词已经喊了好几年，但真正把文本、图像、视频、音频全部用同一个自回归目标从零训练的万亿参数模型，公开报告的这是第一个。ERNIE 5.0的技术选择很值得关注：用超稀疏MoE（mixture-of-experts）架构配模态无关的专家路由——不管输入是文字还是视频帧，走的都是同一套路由逻辑，让模型自己学哪个专家擅长处理什么。更实用的是它的弹性训练范式：在单次预训练过程中，模型同时学习不同深度、不同专家容量、不同稀疏度的子模型，部署时可以按资源约束灵活取用，不需要针对每个场景单独训练。这本质上是在回答一个工程问题——万亿参数模型训出来了，怎么让不同硬件条件的团队都能用？

模态无关路由是统一多模态的关键设计决策，避免了为每种模态单独设计路径的复杂度弹性训练把「一个模型」变成「一族模型」，降低了大模型的部署门槛报告公开了专家路由可视化和弹性训练的详细实验分析

原文：ERNIE 5.0 Technical Report

02 Agent 模型不够大？那就多派几个

深度学习的主旋律一直是「深度扩展」——把单个模型做得更深更强。但当任务本身就很「宽」——比如需要同时搜集多个维度的信息——单Agent的瓶颈不在个体能力，而在组织效率。WideSeek-R1提出了一个互补的扩展维度：宽度扩展。用一个lead agent做任务拆分和编排，多个子Agent并行执行信息检索，全部通过多Agent强化学习（MARL）联合优化。结果很惊人：WideSeek-R1-4B在WideSearch基准上达到40.0% item F1，和单体DeepSeek-R1-671B相当——参数量差了167倍。而且性能随着并行子Agent数量增加持续提升，说明宽度扩展确实有scaling law的味道。

宽度扩展是深度扩展的天然补充，特别适合信息检索等天然可并行的任务4B×N匹敌671B×1的结果说明「用小模型组团」是一条可行的降本路径MARL联合训练是关键——不是简单把多个Agent拼在一起，而是让它们学会协作

原文：WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

03 训练优化 PPO的信任域机制对LLM来说从根上就不对

PPO是LLM强化学习的事实标准，但这篇论文指出了一个结构性问题：PPO用来约束策略更新的ratio clipping在大词表场景下是病态的。问题出在概率比（probability ratio）是单token的采样估计，不是真实的策略散度——低概率token的比值波动很大，被裁剪过度约束（学不到东西）；高概率token的比值变化很小，裁剪管不住（可能发生灾难性漂移）。DPPO的解法很直接：不用启发式裁剪，改为直接估计策略散度（Total Variation或KL散度），并提出了Binary和Top-K两种近似方法来控制显存开销。实验显示训练稳定性和效率都优于现有方法。

PPO的ratio clipping在大词表下系统性地错配了约束力度，这解释了LLM RL训练中常见的不稳定现象DPPO的散度约束更贴合理论直觉，且通过近似方法保持了工程可行性做RLHF/GRPO的团队值得关注这个PPO的替代方案

原文：Rethinking the Trust Region in LLM Reinforcement Learning

04 训练优化你的过程奖励模型训练数据可能有90%是浪费

训练多模态过程奖励模型（PRM）通常需要大规模Monte Carlo标注语料，成本不低。但这篇论文发现了一个好消息：绝大部分训练数据是冗余的。随机子采样很快就饱和，说明有效信息集中在少数样本中。作者从理论上分析了什么样的数据点最有信息量——关键看两个因素：正负标签的混合比例和标签可靠性（正样本的平均MC得分）。基于这两个指标，提出的BIS（Balanced-Information Score）筛选策略在InternVL2.5-8B和Qwen2.5-VL-7B两个骨干上验证：只用10%的数据就达到甚至超过全量训练的效果。

PRM训练数据存在巨大冗余，智能筛选比暴力堆数据更有效BIS不需要额外标注成本，直接利用已有的MC信号做筛选对于正在训练视觉推理PRM的团队，这意味着可以把训练成本降一个数量级

原文：Training Data Efficiency in Multimodal Process Reward Models

也值得关注

全模态LLM的token太多？砍掉75%反而更好 推理加速OmniSIFT对视频和音频token分别做时空剪枝和视觉引导筛选，Qwen2.5-Omni-7B只用25% token在多个任务上超过全量模型。链接

闭源模型只给动作不给思维链，照样能蒸馏 Agentπ-Distill用联合师生目标同时训练有特权信息的教师和无特权的学生，在多个Agent基准上超过「SFT+RL」标准流程。链接

让人形机器人用第一人称视角理解空间 机器人EgoActor用VLM统一控制步行、转头、操作物体，纯RGB输入，8B模型推理延迟低于1秒，模拟和真机都验证了泛化能力。链接

训练前就能预测模型会学坏 安全对齐Data2Behavior不需要真正训练，只用数据的均值表示注入前向传播就能预测微调后的偏差和安全风险，GPU消耗仅为微调的20%。链接

给LLM Agent加上「沟通障碍」，互相理解能力暴跌45% 评测SocialVeil模拟语义模糊、文化差异、情绪干扰三类沟通障碍，四个前沿LLM的表现全线下滑，修复策略效果有限。链接

蛋白质也能自回归生成了 AI for SciencePAR用从粗到细的多尺度预测生成蛋白质骨架，像雕塑一样先刻大形再细化，支持零样本条件生成和motif scaffolding。链接

MoE的专家选择路径泄露了91%的原文 安全对齐攻击者仅凭路由决策就能用transformer解码器重建原始token，即使加噪也无法完全消除，分布式推理场景下需要当作敏感信息保护。链接

DPO的固定参考策略越来越不靠谱 安全对齐GAPO用动态几何锚点替代静态参考，通过对抗扰动识别脆弱的偏好信号，在噪声标签下鲁棒性更强。链接

3D角色自动绑骨，精度提升98%-133% 图像生成SkinTokens把蒙皮权重离散化为token序列，TokenRig用自回归框架统一骨骼和蒙皮生成，再用RL精调提升泛化能力。链接

长视频理解：让模型自己学采帧 多模态VideoBrain用双Agent策略做自适应采帧，准确率提升3.5%-9.0%同时少用30%-40%的帧，还能跨数据集泛化。链接

今日观察

今天有两个值得注意的信号。第一，统一多模态模型的竞争进入万亿参数阶段：ERNIE 5.0是第一个公开报告的万亿参数统一自回归多模态模型，OmniSIFT则在解决这类模型的推理成本问题——训和用两端同时在推进。第二，「小模型组团」正在成为和「大模型单打」并行的范式：WideSeek-R1的宽度扩展、π-Distill的特权信息蒸馏、Interfaze的异构小模型栈，从不同角度在证明不一定非要用最大的模型。做多模态部署的团队建议关注OmniSIFT的token压缩方案；做Agent系统的团队值得研究WideSeek-R1的多Agent MARL训练框架。