配比成本降35倍,显眼词劫持推理38倍

今日概览

  • 数据配比从训前超参变为训后优化,OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重,搜索成本降低15-35倍。
  • 表面线索对LLM推理方向的劫持力是目标约束的8-38倍:跨六个模型呈现稳定sigmoid曲线,但一句最小提示就能恢复15个百分点。
  • 双流DiT从架构内部统一文本语义和空间结构——MMFace-DiT在人脸生成上比六个SOTA提升40%,单模型适配多种空间条件。

重点关注

01 训练优化 数据配比,训完再定也不迟

OptiMer的核心操作是一个变量替换:把持续预训练(CPT)中的数据混合比例从训练超参数变成后处理优化目标。具体做法是每个数据集单独训一个CPT模型,提取各自的分布向量——即该数据集在参数空间中造成的偏移——然后用贝叶斯优化在这些向量之间搜索最优合并权重。这样做的好处是把搜索空间从「重新训练」降到了「重新加权」,在Gemma 3 27B上跨语言(日文、中文)和跨领域(数学、代码)的实验中,搜索成本比传统数据混合低15到35倍,效果也更好。两个附带发现值得注意:优化出的合并权重可以反向解读为数据混合比例,用它重新训练能提升传统CPT;同一组向量还能针对不同目标重新优化,不需要再训练就能生成定制模型。思路清晰,实验覆盖面也够,但前提是你得有资源为每个数据集单独跑一轮CPT——对算力充足的团队这是降低试错成本的好方案,对小团队来说初始投入未必划算。

数据配比从训前超参变为训后优化,搜索成本降低15-35倍合并权重可反向指导数据混合,形成从向量优化到数据策略的闭环前提是每个数据集需单独训一轮CPT,适合有算力预算的团队

02 可解释性 Prompt里一个显眼词的影响力,是任务目标的38倍

直觉上,LLM应该能综合权衡prompt中的所有信息做出判断。但这项跨六个模型的系统研究揭示了一个令人意外的模式:当表面线索(比如「距离近」)和隐含约束(比如「目标不可达」)冲突时,表面线索的影响力是目标约束的8到38倍——不是偶尔出错,是呈现出稳定的sigmoid曲线。token级别的归因分析进一步显示,模型的行为更接近关键词关联而非组合推理——它在做模式匹配,不是在做逻辑推导。研究者构建了500个测试用例的HOB基准,在14个模型上验证了这一现象的普遍性:严格评估下没有模型超过75%准确率。但一个出人意料的发现是,只需加一句最小提示(比如强调关键物体)就能恢复平均15个百分点,说明模型其实「知道」约束存在,只是被显眼线索压过了。

表面线索对LLM推理方向的劫持力是目标约束的8-38倍,这是跨模型的系统性现象而非个例prompt中关键词的权重分布极不均匀,写prompt时需要意识到哪些词会「抢戏」并主动强调容易被忽略的约束问题出在约束推断而非知识缺失,简单提示就能大幅修复

03 图像生成 双流Transformer能让文本和空间控制真正「对齐」吗?

把文本语义和空间结构(mask、sketch)放进同一个Transformer块里并行处理,再通过共享的RoPE注意力做深度融合——MMFace-DiT的核心设计选择是在架构内部统一两路信息,而不是在预训练管线外面拼接控制模块。这个思路的好处很直接:避免了模态主导问题,让文本描述和结构先验能在同一个潜空间里协商,而不是事后调和。论文报告视觉保真度和prompt对齐比六个SOTA方案提升40%,同时一个模型就能动态适配不同的空间条件输入,不需要为每种条件单独训练。不过值得注意的是,人脸是高度结构化、约束明确的领域,这种双流融合在更自由的生成场景下能否保持优势,还需要看后续验证。

双流DiT从架构层面统一语义和空间融合,避免了外挂控制模块的割裂问题单模型适配多种空间条件(mask、sketch等),部署灵活性有实际价值人脸领域验证扎实,但向通用场景迁移的能力是关键待解问题
配比成本降35倍,显眼词劫持推理38倍

也值得关注

04
自动化科学发现的评估器一旦固定,搜索过程会学会应试而非学会机制 AI for Science让评估器和发现过程对抗演化,避免reward hacking。链接
05
用噪声预训练隐式神经表示,收敛性和近似质量显著提升 模型架构CVPR工作,挑战了初始化必须数据驱动的假设。链接
06
从全景图逐步扩展生成沉浸式3D场景 图像生成CVPR工作,解决现有方法在空间一致性和可控性上的两难。链接
07
CMU的多语言音素识别实验方案 多模态系统性验证怎么让英语预训练表示泛化到低资源语言。链接