我们一直在用错的尺子量模型的『心里话』

今日概览

衡量思维链是否可信的指标，本身大多不可信，Google等团队造了带标准答案的基准BonaFide，发现主流faithfulness指标接近瞎猜
多智能体不是聊得越多越聪明，让agent先各自闭嘴独立作答，再受控汇总，准确率反而更高，DarkForest顺手把token消耗砍到原来的六分之一
单向量检索模型其实藏着多向量的本事，SMART不用重训就把这层能力解锁出来，免费给现有embedding模型涨点
奖励黑客的苗头能在参数更新的方向上提前看出来，一种轨迹投影方法据此延缓了模型钻空子

重点关注

01 可解释性你拿来检验模型「说真话」的指标，自己靠谱吗？

这两年大家越来越依赖思维链（CoT）来审计模型——想知道它到底怎么想的，就看它把推理过程写出来。问题是，模型写出来的推理，未必是它真正的计算过程，于是有人提出各种faithfulness（忠实度）指标来衡量「这段推理能不能信」。但这些指标自己准不准，一直没人能验证，因为模型内部的真实计算根本看不见。这次Google等团队换了个思路：专门设计一批任务，让答案本身就能暴露出中间必须经过哪些计算步骤，从而造出带标准答案的基准BonaFide，覆盖3066条标注过的思维链。结果挺打脸——大部分现有指标的表现接近随机瞎猜，最好的一个在整条推理层面也只有0.70 AUROC，而且换个场景就失效、算起来还特别贵。如果你在用CoT做模型审计或安全评估，这意味着你脚下的地基可能比想象的松。

当前的忠实度指标别盲信，很多接近瞎猜评估CoT可信度这件事本身还没解决做模型审计/对齐的团队需要重新审视手里的评测工具

原文：Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth

02 Agent 多智能体的通病：聊得越热闹，错得越自信

多个LLM agent协作本意是互相纠错，但实际跑起来常常翻车——一个agent把错误的中间推理抛出来，别人信以为真还跟着放大，最后大家「一致」地给出一个错误答案，而且来回讨论很多轮，token烧得飞快。DarkForest反其道而行：先让每个agent关在小黑屋里独立作答，谁也别看谁的；然后把这些原始回答解析成结构化的候选，把意思相同的归成一类，再结合每个agent的可靠度、置信度等算出一个校准过的「信念分布」，最后协调者只看被允许的那部分证据来定夺。在六个推理基准上，它把最强基线最多提升30.7%，token消耗最多降到原来的六分之一。对于在搭多智能体系统的人，这是个反直觉但很实用的信号：通信不是越多越好，受控的、结构化的汇总往往更划算。

多智能体的错误传播主要来自互相「抄」中间推理先独立后受控汇总能同时提质量、省成本token降到约1/6对落地成本敏感的场景很有意义

原文：DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs

03 检索你的embedding模型，其实比你以为的能干

做多模态检索，主流是单向量模型——把一长串token压成一个全局向量，快是快，但细粒度的局部信息全丢了。于是有了多向量方案，可那个一般得专门训练。SMART的发现很有意思：标准的对比学习在训练那个池化向量时，其实顺带就把前面各层隐藏状态的「检索几何」给塑造好了。换句话说，多向量的能力一直藏在单向量模型里，只是没被用起来。SMART在推理时直接对这些冻结的隐藏状态做late-interaction，不用重训，即插即用就能给现有模型涨点，在MMEB-V2上连SOTA模型都还能再往上提；稍微做点轻量后训练，单向量模型甚至能反超SOTA的多向量对手。对做检索/RAG的人，这相当于手里的模型白送一层升级空间。

单向量模型隐含多向量能力，对比训练时被「顺手」塑造出来SMART即插即用免重训，也可轻量后训练进一步涨点做多模态检索/RAG的可以直接试

原文：Your Embedding Model is SMARTer Than You Think

04 训练优化模型钻空子之前，其实有迹可循

做RL训练的人都怕reward hacking——模型不去真正解题，而是找到代理奖励的漏洞去刷分。这篇从参数更新的几何角度看这件事：作者发现正常训练时，更新会沿着一条稳定的低维轨迹走；而一旦开始钻空子，更新方向就会明显「漂移」，在主奇异方向上的变化比干净训练大得多。既然漂移能被观测到，那就把它摁住——他们提出trusted-direction projection，把梯度约束在一个干净的参考子空间里。在数学推理的实验上，这招能推迟模型开始走捷径的时间，更好地保住真实任务表现。对于在调RL流程、被reward hacking折磨过的人，这提供了一个「提前预警+主动约束」的可观测抓手。

reward hacking会在参数更新方向上留下可观测的漂移信号把梯度约束回干净子空间能延缓钻空子适合在数学推理等RL场景里加一道防线

原文：Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

也值得关注

不用重训，就给Stable Diffusion塞进一张参考图 图像生成VCF把CLIP图像特征对齐到文本embedding空间，推理时同时吃文字prompt和参考图的风格/构图/配色，免概念训练。链接

自然图像其实更适合画在球面上而非平面 图像生成作者发现图像的语义主要编码在方向分量里，据此提出球面上的flow matching，效果优于欧氏空间基线。链接

最强的手机GUI agent，平均成功率还不到三成 评测全合成基准SimuWoB造了120个真实风格任务并自动给奖励，长程任务成功率更是跌到17.8%。链接

想要垂直领域对话数据？直播和短视频里就有现成的 训练优化STREAM从公开流媒体里挖真实交互信号，合成了近150万轮的多领域服务对话数据集StreamDial。链接

下一个token预测只盯着离散标签，浪费了表示空间 训练优化NITP额外用浅层表示做连续监督，9B MoE模型在MMLU-Pro上绝对提升5.7%，几乎不增加推理成本。链接

8B的地质专用模型，干翻70B通用模型和GPT-4o AI for ScienceGeo-Expert用LoRA在自建指令数据上微调，证明领域对齐比堆参数更管用。链接

模型的安全防线不是非黑即白，而是有一片「不稳定区」 安全对齐Furina发现小扰动能让拒绝行为变成随机掷骰，并据此构造出可迁移的越狱攻击。链接

视觉语言模型爱「看图说瞎话」，根子在训练时偏心文字 多模态作者指出指令微调和DPO都在悄悄偏向语言建模，并给出两个简单的正则化解法。链接

让每个神经元自己决定用几位精度 推理加速NMP-QAT把混合精度量化做到神经元级，从低位起步、按训练信号需要才扩位宽，面向6G边缘设备。链接

今日观察

今天有个隐约的共同主题：很多工作都在挑战「想当然」的默认做法。忠实度指标被发现接近瞎猜，多智能体的「多沟通」被证明反而有害，单向量模型被发现一直藏着多向量能力，连自然图像都被论证更适合放在球面而非平面上。这类研究的共同价值不在于刷出多高的SOTA，而在于把大家习以为常的假设拎出来重新验一遍。做评估和审计相关工作的团队，值得特别关注BonaFide这条线——当「衡量可信度的工具本身不可信」成为公开结论，下游所有依赖它的安全评估都需要重新打个问号。