今日概览
- 衡量思维链是否可信的指标,本身大多不可信,Google等团队造了带标准答案的基准BonaFide,发现主流faithfulness指标接近瞎猜
- 多智能体不是聊得越多越聪明,让agent先各自闭嘴独立作答,再受控汇总,准确率反而更高,DarkForest顺手把token消耗砍到原来的六分之一
- 单向量检索模型其实藏着多向量的本事,SMART不用重训就把这层能力解锁出来,免费给现有embedding模型涨点
- 奖励黑客的苗头能在参数更新的方向上提前看出来,一种轨迹投影方法据此延缓了模型钻空子
重点关注
01 可解释性 你拿来检验模型「说真话」的指标,自己靠谱吗?
这两年大家越来越依赖思维链(CoT)来审计模型——想知道它到底怎么想的,就看它把推理过程写出来。问题是,模型写出来的推理,未必是它真正的计算过程,于是有人提出各种faithfulness(忠实度)指标来衡量「这段推理能不能信」。但这些指标自己准不准,一直没人能验证,因为模型内部的真实计算根本看不见。这次Google等团队换了个思路:专门设计一批任务,让答案本身就能暴露出中间必须经过哪些计算步骤,从而造出带标准答案的基准BonaFide,覆盖3066条标注过的思维链。结果挺打脸——大部分现有指标的表现接近随机瞎猜,最好的一个在整条推理层面也只有0.70 AUROC,而且换个场景就失效、算起来还特别贵。如果你在用CoT做模型审计或安全评估,这意味着你脚下的地基可能比想象的松。
原文:Faithfulness Metrics Don't Measure Faithfulness: A Meta-Evaluation with Ground Truth
02 Agent 多智能体的通病:聊得越热闹,错得越自信
多个LLM agent协作本意是互相纠错,但实际跑起来常常翻车——一个agent把错误的中间推理抛出来,别人信以为真还跟着放大,最后大家「一致」地给出一个错误答案,而且来回讨论很多轮,token烧得飞快。DarkForest反其道而行:先让每个agent关在小黑屋里独立作答,谁也别看谁的;然后把这些原始回答解析成结构化的候选,把意思相同的归成一类,再结合每个agent的可靠度、置信度等算出一个校准过的「信念分布」,最后协调者只看被允许的那部分证据来定夺。在六个推理基准上,它把最强基线最多提升30.7%,token消耗最多降到原来的六分之一。对于在搭多智能体系统的人,这是个反直觉但很实用的信号:通信不是越多越好,受控的、结构化的汇总往往更划算。
原文:DarkForest: Less Talk, Higher Accuracy for Multi-Agent LLMs
03 检索 你的embedding模型,其实比你以为的能干
做多模态检索,主流是单向量模型——把一长串token压成一个全局向量,快是快,但细粒度的局部信息全丢了。于是有了多向量方案,可那个一般得专门训练。SMART的发现很有意思:标准的对比学习在训练那个池化向量时,其实顺带就把前面各层隐藏状态的「检索几何」给塑造好了。换句话说,多向量的能力一直藏在单向量模型里,只是没被用起来。SMART在推理时直接对这些冻结的隐藏状态做late-interaction,不用重训,即插即用就能给现有模型涨点,在MMEB-V2上连SOTA模型都还能再往上提;稍微做点轻量后训练,单向量模型甚至能反超SOTA的多向量对手。对做检索/RAG的人,这相当于手里的模型白送一层升级空间。
原文:Your Embedding Model is SMARTer Than You Think
04 训练优化 模型钻空子之前,其实有迹可循
做RL训练的人都怕reward hacking——模型不去真正解题,而是找到代理奖励的漏洞去刷分。这篇从参数更新的几何角度看这件事:作者发现正常训练时,更新会沿着一条稳定的低维轨迹走;而一旦开始钻空子,更新方向就会明显「漂移」,在主奇异方向上的变化比干净训练大得多。既然漂移能被观测到,那就把它摁住——他们提出trusted-direction projection,把梯度约束在一个干净的参考子空间里。在数学推理的实验上,这招能推迟模型开始走捷径的时间,更好地保住真实任务表现。对于在调RL流程、被reward hacking折磨过的人,这提供了一个「提前预警+主动约束」的可观测抓手。
原文:Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

也值得关注
今日观察
今天有个隐约的共同主题:很多工作都在挑战「想当然」的默认做法。忠实度指标被发现接近瞎猜,多智能体的「多沟通」被证明反而有害,单向量模型被发现一直藏着多向量能力,连自然图像都被论证更适合放在球面而非平面上。这类研究的共同价值不在于刷出多高的SOTA,而在于把大家习以为常的假设拎出来重新验一遍。做评估和审计相关工作的团队,值得特别关注BonaFide这条线——当「衡量可信度的工具本身不可信」成为公开结论,下游所有依赖它的安全评估都需要重新打个问号。