今日概览
- 大模型最后几层在为对齐偷改正确答案:早层粗猜、中层把推理语义打磨清楚,末层却把磨好的预测往「更通用、更对齐」的token方向拖偏,Confident Decoding改从confident的早层解码绕开扰动,training-free、零显存、<2%延迟就能在硬推理benchmark上稳定提升。
- 企业里agent真正要干的活,第一次有了真实样本:EnterpriseClawBench从真实workplace session还原852个带fixture的可复现任务,最强配置(Codex搭GPT-5.5)也只到0.663,离放心交付还有距离。
- 训练terminal agent卡住的不是算法,是数据:Tmax用9B加简单的outcome-only recipe在Terminal-Bench 2.0拿到27%、打平更大的模型,同期CLI-Universe专造可验证任务,两篇矛头都指向训练数据这一层。
- 一个模型原生打通分子与蛋白的序列、结构、语言:BioMatrix用decoder-only架构在80个任务里77个做到SOTA或接近,做药物、蛋白工程不用再拼几个专用模型——不过全SOTA的说法需要核实各任务基线强度。
- 把passage计算搬到线下,reranking才好部署:KaLM-Reranker-V1用「fast but not late interaction」解耦query和passage,0.27B的Nano版就能跟7-12B的embedding模型掰手腕,BEIR持平工业级reranker。
重点关注
01 推理加速 大模型最后几层在偷偷把对的答案改「通顺」
把一个token的预测过程拆开看,会发现一个意外的三段式:早层先做粗略的猜测,中层把推理相关的语义一点点打磨清楚,但最后几层并不是锦上添花——它们会把已经磨好的预测往「更通用、更符合对齐偏好」的token方向拉,反而扰动了正确答案。换句话说,我们一直默认「越深的表示越可靠、所以解码就从最后一层取」,但末层为了对齐(alignment)付出的代价,恰恰是推理正确性,这就是所谓的对齐税(alignment tax)。这篇提出的Confident Decoding针对性很强:当模型在某个靠近末尾的层已经很有把握(用熵来衡量)时,就直接从那个confident层解码,既绕开了末层的扰动,顺带还省了走完剩余层的延迟。作者还把「选哪一层」形式化成一个最优停止问题,证明在末层扰动占主导时这个保守的回溯搜索能过滤掉扰动。实测在GPQA-Diamond、Omni-MATH、HLE这几个硬推理benchmark上稳定提升,且零额外显存、延迟增加不到2%,dense和MoE模型都适用——最难得的是它training-free,不用重训就能叠在现有模型上。
原文:Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding
02 评测 企业里agent真正要干的活,第一次有了真实样本
大多数agent benchmark的任务是合成或改写出来的,看着像那么回事,但总有点悬浮——不太像企业里真实发生的工作。EnterpriseClawBench反着来:从一大批真实的企业workplace session档案里抽出852个可复现任务,连fixture、角色类别、硬规则(hard rules)、语义评分标准(rubric)都一并还原了。这些任务的共同点是「在工作区里干活」——读异构文件、调工具、最后交付一份业务产物,而不是答一道题。结果也很克制:最强配置(Codex搭GPT-5.5)也只到0.663,离能放心交给agent还有距离。因为数据是企业内部内容,benchmark本身不开放,作者真正复用的贡献是那套构造和评测协议——它顺带说明了企业agent该怎么评:harness与模型要成对报告,还要看产物交付、视觉质量、成本、耗时和技能迁移,而不是压成一个分数。
原文:EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions
03 代码智能 训练terminal agent卡住的地方,原来不是算法
terminal agent已经是语言模型最普及的下游应用,但学术界对它的RL训练研究少得出奇——原因不是算法难,而是没有好的benchmark、没有数据、没有能复现的简单baseline。Tmax正面回应了这一点:用一套数据生成taxonomy(控制难度、引入persona、让verifier多样化)廉价造出大量可执行的terminal环境,再用纯结果信号(outcome-only)的简单RL recipe训练。结果是9B参数在Terminal-Bench2.0上拿到27%,超过此前更大的模型,开源数据集规模也是之前的2.5倍以上。值得一起看的是同期的CLI-Universe,它造了个可验证的任务合成引擎,专治「合成指令含糊、执行路径浅、测试脆」——两篇的矛头都指向同一处:terminal agent的竞争正从模型本身,转向怎么造出能给出可靠学习信号的训练任务。对想自己训agent的团队来说,这是个该重新分配精力的信号:与其调算法,不如先解决数据和验证。
原文:Tmax: A simple recipe for terminal agents
04 AI for Science 做蛋白和分子,终于不用拼一堆专用模型了
生物基础模型一直在做二选一:要么把序列、结构、自然语言这几种模态融在一个目标下,但只能管一种实体(要么分子要么蛋白);要么覆盖多种实体,却省掉了显式的结构建模,或者只能「读」不能「生成」。BioMatrix的做法是把分子序列(SMILES和SELFIES)、分子结构、蛋白序列、蛋白结构、自然语言全部映射进同一个离散token空间,用一个decoder-only架构(基于Qwen3的1.7B和4B)在304B token上继续预训练,所有模态都靠同一个next-token预测来读和写,不再需要外挂编码器或模态专用的输出头。在80个任务里它有77个做到SOTA或接近,覆盖单实体和跨实体的理解与生成。对做药物发现或蛋白工程的团队来说,真正的价值不在某个榜单分数,而在于一个通用模型能同时handle以前要拼好几个专用模型的活——不过80任务全SOTA这种说法需要看全文确认各任务的baseline强度。
05 检索 把passage的计算搬到线下,reranking才好部署
先把query和passage的计算解耦、让passage那一半提前编码搬到线下算好缓存——reranking要好部署,绕不开这一步。问题是reranker的惯常做法恰恰相反:不管底层是encoder还是decoder,都把query和passage拼在一起编码,两者的计算紧紧绑死,线上每来一个query都得把候选passage重新过一遍模型,延迟和成本都压在请求路径上。KaLM-Reranker-V1走的是「fast but not late interaction」:用encoder把passage提前编码好(还能用Matryoshka pooling压缩成不同维度),decoder只处理query侧的指令和意图,最后靠cross-attention做相关性建模。这样passage可以离线预算、缓存,线上只剩query侧的轻量计算,但又没退化成late interaction那种只靠向量点积、表达力受限的做法。效果上,BEIR持平Qwen3-Reranker这类工业级模型,0.27B的Nano版在LMEB上能跟7-12B的embedding模型掰手腕。不过多语言数据训得不多,MIRACL上的表现还需要看全文里的具体盘子才好下判断。
原文:KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

也值得关注
今日观察
今天把终端、手机、企业三个毫不相干的agent场景摆到一起,会撞见一个不太显眼的共性:它们卡住的地方、使劲的地方,都不在RL算法或模型本身,而在「能不能造出真实、可执行、可验证的环境和任务数据」。CLI-Universe(2606.22883)直接把可执行训练数据稀缺称作critical bottleneck;Tmax(2606.23321)把terminal agent难训归因于没数据、没可复现的简单baseline;PhoneBuddy(2606.23049)被真机环境的「慢、有状态、有副作用、难重置」逼出真实加mock两套环境;EnterpriseClawBench(2606.23654)干脆放弃合成,从真实工作session里还原带fixture的可复现任务。扫一眼标题,你大概只会觉得「又来一批agent论文」;但底下真正的信号是——agent的工程价值,正从模型和算法那一层,悄悄迁到环境与可验证数据这一层。如果你在训或评自己的agent,下次开工前先别急着调RL、换模型,花点时间盘一下手里的环境:任务到底可不可执行、结果可不可自动验证、失败能不能复现重置——这三项往往比算法更决定你能走多远。