末层偷改答案,早层解码反更准

今日概览

  • 大模型最后几层在为对齐偷改正确答案:早层粗猜、中层把推理语义打磨清楚,末层却把磨好的预测往「更通用、更对齐」的token方向拖偏,Confident Decoding改从confident的早层解码绕开扰动,training-free、零显存、<2%延迟就能在硬推理benchmark上稳定提升。
  • 企业里agent真正要干的活,第一次有了真实样本:EnterpriseClawBench从真实workplace session还原852个带fixture的可复现任务,最强配置(Codex搭GPT-5.5)也只到0.663,离放心交付还有距离。
  • 训练terminal agent卡住的不是算法,是数据:Tmax用9B加简单的outcome-only recipe在Terminal-Bench 2.0拿到27%、打平更大的模型,同期CLI-Universe专造可验证任务,两篇矛头都指向训练数据这一层。
  • 一个模型原生打通分子与蛋白的序列、结构、语言:BioMatrix用decoder-only架构在80个任务里77个做到SOTA或接近,做药物、蛋白工程不用再拼几个专用模型——不过全SOTA的说法需要核实各任务基线强度。
  • 把passage计算搬到线下,reranking才好部署:KaLM-Reranker-V1用「fast but not late interaction」解耦query和passage,0.27B的Nano版就能跟7-12B的embedding模型掰手腕,BEIR持平工业级reranker。

重点关注

01 推理加速 大模型最后几层在偷偷把对的答案改「通顺」

把一个token的预测过程拆开看,会发现一个意外的三段式:早层先做粗略的猜测,中层把推理相关的语义一点点打磨清楚,但最后几层并不是锦上添花——它们会把已经磨好的预测往「更通用、更符合对齐偏好」的token方向拉,反而扰动了正确答案。换句话说,我们一直默认「越深的表示越可靠、所以解码就从最后一层取」,但末层为了对齐(alignment)付出的代价,恰恰是推理正确性,这就是所谓的对齐税(alignment tax)。这篇提出的Confident Decoding针对性很强:当模型在某个靠近末尾的层已经很有把握(用熵来衡量)时,就直接从那个confident层解码,既绕开了末层的扰动,顺带还省了走完剩余层的延迟。作者还把「选哪一层」形式化成一个最优停止问题,证明在末层扰动占主导时这个保守的回溯搜索能过滤掉扰动。实测在GPQA-Diamond、Omni-MATH、HLE这几个硬推理benchmark上稳定提升,且零额外显存、延迟增加不到2%,dense和MoE模型都适用——最难得的是它training-free,不用重训就能叠在现有模型上。

「末层最可靠」这个默认假设可能害了推理任务,对齐微调会在最后几层引入扰动Confident Decoding是training-free的纯解码改动,可直接叠加在已部署的对齐模型上验证零显存、<2%延迟,对推理类应用是近乎免费的提升,值得做reasoning产品的团队试一把。

02 评测 企业里agent真正要干的活,第一次有了真实样本

大多数agent benchmark的任务是合成或改写出来的,看着像那么回事,但总有点悬浮——不太像企业里真实发生的工作。EnterpriseClawBench反着来:从一大批真实的企业workplace session档案里抽出852个可复现任务,连fixture、角色类别、硬规则(hard rules)、语义评分标准(rubric)都一并还原了。这些任务的共同点是「在工作区里干活」——读异构文件、调工具、最后交付一份业务产物,而不是答一道题。结果也很克制:最强配置(Codex搭GPT-5.5)也只到0.663,离能放心交给agent还有距离。因为数据是企业内部内容,benchmark本身不开放,作者真正复用的贡献是那套构造和评测协议——它顺带说明了企业agent该怎么评:harness与模型要成对报告,还要看产物交付、视觉质量、成本、耗时和技能迁移,而不是压成一个分数。

任务取自真实企业session,比合成benchmark更贴近agent的实际工作形态最强配置仅0.663,企业场景的可靠性还远未达标评测维度要拆开看(harness×模型、交付、成本、耗时),单一分数会掩盖部署时真正关心的差异。

03 代码智能 训练terminal agent卡住的地方,原来不是算法

terminal agent已经是语言模型最普及的下游应用,但学术界对它的RL训练研究少得出奇——原因不是算法难,而是没有好的benchmark、没有数据、没有能复现的简单baseline。Tmax正面回应了这一点:用一套数据生成taxonomy(控制难度、引入persona、让verifier多样化)廉价造出大量可执行的terminal环境,再用纯结果信号(outcome-only)的简单RL recipe训练。结果是9B参数在Terminal-Bench2.0上拿到27%,超过此前更大的模型,开源数据集规模也是之前的2.5倍以上。值得一起看的是同期的CLI-Universe,它造了个可验证的任务合成引擎,专治「合成指令含糊、执行路径浅、测试脆」——两篇的矛头都指向同一处:terminal agent的竞争正从模型本身,转向怎么造出能给出可靠学习信号的训练任务。对想自己训agent的团队来说,这是个该重新分配精力的信号:与其调算法,不如先解决数据和验证。

terminal agent训练的真正瓶颈是可验证的高质量数据,不是RL算法Tmax用9B参数+简单outcome-only recipe打平更大模型,证明开源baseline已逼近前沿想训agent的团队该把精力从调算法挪到造可验证的训练任务上

04 AI for Science 做蛋白和分子,终于不用拼一堆专用模型了

生物基础模型一直在做二选一:要么把序列、结构、自然语言这几种模态融在一个目标下,但只能管一种实体(要么分子要么蛋白);要么覆盖多种实体,却省掉了显式的结构建模,或者只能「读」不能「生成」。BioMatrix的做法是把分子序列(SMILES和SELFIES)、分子结构、蛋白序列、蛋白结构、自然语言全部映射进同一个离散token空间,用一个decoder-only架构(基于Qwen3的1.7B和4B)在304B token上继续预训练,所有模态都靠同一个next-token预测来读和写,不再需要外挂编码器或模态专用的输出头。在80个任务里它有77个做到SOTA或接近,覆盖单实体和跨实体的理解与生成。对做药物发现或蛋白工程的团队来说,真正的价值不在某个榜单分数,而在于一个通用模型能同时handle以前要拼好几个专用模型的活——不过80任务全SOTA这种说法需要看全文确认各任务的baseline强度。

一个模型原生打通分子+蛋白的序列、结构、语言,省去为不同任务拼专用模型的工程成本4B规模就能跑,对中小团队的部署门槛友好77/80的SOTA是亮点但要核实对比基线,别只看任务覆盖广度

05 检索 把passage的计算搬到线下,reranking才好部署

先把query和passage的计算解耦、让passage那一半提前编码搬到线下算好缓存——reranking要好部署,绕不开这一步。问题是reranker的惯常做法恰恰相反:不管底层是encoder还是decoder,都把query和passage拼在一起编码,两者的计算紧紧绑死,线上每来一个query都得把候选passage重新过一遍模型,延迟和成本都压在请求路径上。KaLM-Reranker-V1走的是「fast but not late interaction」:用encoder把passage提前编码好(还能用Matryoshka pooling压缩成不同维度),decoder只处理query侧的指令和意图,最后靠cross-attention做相关性建模。这样passage可以离线预算、缓存,线上只剩query侧的轻量计算,但又没退化成late interaction那种只靠向量点积、表达力受限的做法。效果上,BEIR持平Qwen3-Reranker这类工业级模型,0.27B的Nano版在LMEB上能跟7-12B的embedding模型掰手腕。不过多语言数据训得不多,MIRACL上的表现还需要看全文里的具体盘子才好下判断。

reranking层的延迟和成本常被RAG团队忽视,这篇正好动在passage预编码这个能省钱的地方passage离线算好可缓存,线上只跟query轻量交互,适合候选集大、QPS高的场景小到0.27B就能打,部署预算紧的团队值得试一版。
末层偷改答案,早层解码反更准

也值得关注

06
把「数据处理」本身训成一种能力 训练优化DataClaw0让agent主动裁剪、结构化原始多模态流,直接服务于post-training,而不是被动标注。链接
07
训手机agent,被真机环境逼出两套环境 Agent真机慢、有状态、有副作用、难重置,作者用真实app加mock app结合,给出训练开源模型做手机agent的recipe。链接
08
电脑操作agent的技能学习大多默认环境静态又安全 安全对齐SkillHarness专门处理prompt注入、弹窗这类对抗和动态风险下的安全技能学习。链接
09
把MoE的思路搬到GQA自注意力上 模型架构按token难度差异化激活注意力头,省下长上下文里二次方增长的算力。链接
10
长流程agent会过早认定一种证据解读,然后全程为它辩护 Agent只看最终答案的评分发现不了这种「过程崩塌」,这篇专门把它诊断出来。链接
11
把VLM当自动驾驶认知中枢,换个地理还泛化吗 评测Robusto-2拿利马、纽约这类新城市的OOD边角场景当试金石。链接
12
实体级成员推断:盘问LLM判断某个实体是否进过训练数据 安全对齐直接关乎隐私泄露和版权合规的风险评估。链接

今日观察

今天把终端、手机、企业三个毫不相干的agent场景摆到一起,会撞见一个不太显眼的共性:它们卡住的地方、使劲的地方,都不在RL算法或模型本身,而在「能不能造出真实、可执行、可验证的环境和任务数据」。CLI-Universe(2606.22883)直接把可执行训练数据稀缺称作critical bottleneck;Tmax(2606.23321)把terminal agent难训归因于没数据、没可复现的简单baseline;PhoneBuddy(2606.23049)被真机环境的「慢、有状态、有副作用、难重置」逼出真实加mock两套环境;EnterpriseClawBench(2606.23654)干脆放弃合成,从真实工作session里还原带fixture的可复现任务。扫一眼标题,你大概只会觉得「又来一批agent论文」;但底下真正的信号是——agent的工程价值,正从模型和算法那一层,悄悄迁到环境与可验证数据这一层。如果你在训或评自己的agent,下次开工前先别急着调RL、换模型,花点时间盘一下手里的环境:任务到底可不可执行、结果可不可自动验证、失败能不能复现重置——这三项往往比算法更决定你能走多远。