配比成本降35倍，显眼词劫持推理38倍

今日概览

数据配比从训前超参变为训后优化，OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重，搜索成本降低15-35倍。
表面线索对LLM推理方向的劫持力是目标约束的8-38倍：跨六个模型呈现稳定sigmoid曲线，但一句最小提示就能恢复15个百分点。
双流DiT从架构内部统一文本语义和空间结构——MMFace-DiT在人脸生成上比六个SOTA提升40%，单模型适配多种空间条件。

重点关注

01 训练优化数据配比，训完再定也不迟

OptiMer的核心操作是一个变量替换：把持续预训练（CPT）中的数据混合比例从训练超参数变成后处理优化目标。具体做法是每个数据集单独训一个CPT模型，提取各自的分布向量——即该数据集在参数空间中造成的偏移——然后用贝叶斯优化在这些向量之间搜索最优合并权重。这样做的好处是把搜索空间从「重新训练」降到了「重新加权」，在Gemma 3 27B上跨语言（日文、中文）和跨领域（数学、代码）的实验中，搜索成本比传统数据混合低15到35倍，效果也更好。两个附带发现值得注意：优化出的合并权重可以反向解读为数据混合比例，用它重新训练能提升传统CPT；同一组向量还能针对不同目标重新优化，不需要再训练就能生成定制模型。思路清晰，实验覆盖面也够，但前提是你得有资源为每个数据集单独跑一轮CPT——对算力充足的团队这是降低试错成本的好方案，对小团队来说初始投入未必划算。

数据配比从训前超参变为训后优化，搜索成本降低15-35倍合并权重可反向指导数据混合，形成从向量优化到数据策略的闭环前提是每个数据集需单独训一轮CPT，适合有算力预算的团队

原文：OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

02 可解释性 Prompt里一个显眼词的影响力，是任务目标的38倍

直觉上，LLM应该能综合权衡prompt中的所有信息做出判断。但这项跨六个模型的系统研究揭示了一个令人意外的模式：当表面线索（比如「距离近」）和隐含约束（比如「目标不可达」）冲突时，表面线索的影响力是目标约束的8到38倍——不是偶尔出错，是呈现出稳定的sigmoid曲线。token级别的归因分析进一步显示，模型的行为更接近关键词关联而非组合推理——它在做模式匹配，不是在做逻辑推导。研究者构建了500个测试用例的HOB基准，在14个模型上验证了这一现象的普遍性：严格评估下没有模型超过75%准确率。但一个出人意料的发现是，只需加一句最小提示（比如强调关键物体）就能恢复平均15个百分点，说明模型其实「知道」约束存在，只是被显眼线索压过了。

表面线索对LLM推理方向的劫持力是目标约束的8-38倍，这是跨模型的系统性现象而非个例prompt中关键词的权重分布极不均匀，写prompt时需要意识到哪些词会「抢戏」并主动强调容易被忽略的约束问题出在约束推断而非知识缺失，简单提示就能大幅修复

原文：The Model Says Walk: How Surface Heuristics Override Implicit Constraints in LLM Reasoning

03 图像生成双流Transformer能让文本和空间控制真正「对齐」吗？

把文本语义和空间结构（mask、sketch）放进同一个Transformer块里并行处理，再通过共享的RoPE注意力做深度融合——MMFace-DiT的核心设计选择是在架构内部统一两路信息，而不是在预训练管线外面拼接控制模块。这个思路的好处很直接：避免了模态主导问题，让文本描述和结构先验能在同一个潜空间里协商，而不是事后调和。论文报告视觉保真度和prompt对齐比六个SOTA方案提升40%，同时一个模型就能动态适配不同的空间条件输入，不需要为每种条件单独训练。不过值得注意的是，人脸是高度结构化、约束明确的领域，这种双流融合在更自由的生成场景下能否保持优势，还需要看后续验证。

双流DiT从架构层面统一语义和空间融合，避免了外挂控制模块的割裂问题单模型适配多种空间条件（mask、sketch等），部署灵活性有实际价值人脸领域验证扎实，但向通用场景迁移的能力是关键待解问题

原文：MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

也值得关注

自动化科学发现的评估器一旦固定，搜索过程会学会应试而非学会机制 AI for Science让评估器和发现过程对抗演化，避免reward hacking。链接

用噪声预训练隐式神经表示，收敛性和近似质量显著提升 模型架构CVPR工作，挑战了初始化必须数据驱动的假设。链接

从全景图逐步扩展生成沉浸式3D场景 图像生成CVPR工作，解决现有方法在空间一致性和可控性上的两难。链接

CMU的多语言音素识别实验方案 多模态系统性验证怎么让英语预训练表示泛化到低资源语言。链接