末层偷改答案，早层解码反更准

今日概览

大模型最后几层在为对齐偷改正确答案：早层粗猜、中层把推理语义打磨清楚，末层却把磨好的预测往「更通用、更对齐」的token方向拖偏，Confident Decoding改从confident的早层解码绕开扰动，training-free、零显存、<2%延迟就能在硬推理benchmark上稳定提升。
企业里agent真正要干的活，第一次有了真实样本：EnterpriseClawBench从真实workplace session还原852个带fixture的可复现任务，最强配置（Codex搭GPT-5.5）也只到0.663，离放心交付还有距离。
训练terminal agent卡住的不是算法，是数据：Tmax用9B加简单的outcome-only recipe在Terminal-Bench 2.0拿到27%、打平更大的模型，同期CLI-Universe专造可验证任务，两篇矛头都指向训练数据这一层。
一个模型原生打通分子与蛋白的序列、结构、语言：BioMatrix用decoder-only架构在80个任务里77个做到SOTA或接近，做药物、蛋白工程不用再拼几个专用模型——不过全SOTA的说法需要核实各任务基线强度。
把passage计算搬到线下，reranking才好部署：KaLM-Reranker-V1用「fast but not late interaction」解耦query和passage，0.27B的Nano版就能跟7-12B的embedding模型掰手腕，BEIR持平工业级reranker。

重点关注

01 推理加速大模型最后几层在偷偷把对的答案改「通顺」

把一个token的预测过程拆开看，会发现一个意外的三段式：早层先做粗略的猜测，中层把推理相关的语义一点点打磨清楚，但最后几层并不是锦上添花——它们会把已经磨好的预测往「更通用、更符合对齐偏好」的token方向拉，反而扰动了正确答案。换句话说,我们一直默认「越深的表示越可靠、所以解码就从最后一层取」,但末层为了对齐(alignment)付出的代价,恰恰是推理正确性,这就是所谓的对齐税(alignment tax)。这篇提出的Confident Decoding针对性很强:当模型在某个靠近末尾的层已经很有把握(用熵来衡量)时,就直接从那个confident层解码,既绕开了末层的扰动,顺带还省了走完剩余层的延迟。作者还把「选哪一层」形式化成一个最优停止问题,证明在末层扰动占主导时这个保守的回溯搜索能过滤掉扰动。实测在GPQA-Diamond、Omni-MATH、HLE这几个硬推理benchmark上稳定提升,且零额外显存、延迟增加不到2%,dense和MoE模型都适用——最难得的是它training-free,不用重训就能叠在现有模型上。

「末层最可靠」这个默认假设可能害了推理任务，对齐微调会在最后几层引入扰动Confident Decoding是training-free的纯解码改动，可直接叠加在已部署的对齐模型上验证零显存、<2%延迟，对推理类应用是近乎免费的提升，值得做reasoning产品的团队试一把。

原文：Deeper is Not Always Better: Mitigating the Alignment Tax via Confident Layer Decoding

02 评测企业里agent真正要干的活，第一次有了真实样本

大多数agent benchmark的任务是合成或改写出来的，看着像那么回事，但总有点悬浮——不太像企业里真实发生的工作。EnterpriseClawBench反着来：从一大批真实的企业workplace session档案里抽出852个可复现任务，连fixture、角色类别、硬规则（hard rules）、语义评分标准（rubric）都一并还原了。这些任务的共同点是「在工作区里干活」——读异构文件、调工具、最后交付一份业务产物，而不是答一道题。结果也很克制：最强配置（Codex搭GPT-5.5）也只到0.663，离能放心交给agent还有距离。因为数据是企业内部内容，benchmark本身不开放，作者真正复用的贡献是那套构造和评测协议——它顺带说明了企业agent该怎么评：harness与模型要成对报告，还要看产物交付、视觉质量、成本、耗时和技能迁移，而不是压成一个分数。

任务取自真实企业session，比合成benchmark更贴近agent的实际工作形态最强配置仅0.663，企业场景的可靠性还远未达标评测维度要拆开看（harness×模型、交付、成本、耗时），单一分数会掩盖部署时真正关心的差异。

原文：EnterpriseClawBench: Benchmarking Agents from Real Workplace Sessions

03 代码智能训练terminal agent卡住的地方，原来不是算法

terminal agent已经是语言模型最普及的下游应用，但学术界对它的RL训练研究少得出奇——原因不是算法难，而是没有好的benchmark、没有数据、没有能复现的简单baseline。Tmax正面回应了这一点：用一套数据生成taxonomy（控制难度、引入persona、让verifier多样化）廉价造出大量可执行的terminal环境，再用纯结果信号（outcome-only）的简单RL recipe训练。结果是9B参数在Terminal-Bench2.0上拿到27%，超过此前更大的模型，开源数据集规模也是之前的2.5倍以上。值得一起看的是同期的CLI-Universe，它造了个可验证的任务合成引擎，专治「合成指令含糊、执行路径浅、测试脆」——两篇的矛头都指向同一处：terminal agent的竞争正从模型本身,转向怎么造出能给出可靠学习信号的训练任务。对想自己训agent的团队来说,这是个该重新分配精力的信号:与其调算法,不如先解决数据和验证。

terminal agent训练的真正瓶颈是可验证的高质量数据，不是RL算法Tmax用9B参数+简单outcome-only recipe打平更大模型，证明开源baseline已逼近前沿想训agent的团队该把精力从调算法挪到造可验证的训练任务上

原文：Tmax: A simple recipe for terminal agents

04 AI for Science 做蛋白和分子，终于不用拼一堆专用模型了

生物基础模型一直在做二选一：要么把序列、结构、自然语言这几种模态融在一个目标下，但只能管一种实体（要么分子要么蛋白）；要么覆盖多种实体，却省掉了显式的结构建模，或者只能「读」不能「生成」。BioMatrix的做法是把分子序列（SMILES和SELFIES）、分子结构、蛋白序列、蛋白结构、自然语言全部映射进同一个离散token空间，用一个decoder-only架构（基于Qwen3的1.7B和4B）在304B token上继续预训练，所有模态都靠同一个next-token预测来读和写，不再需要外挂编码器或模态专用的输出头。在80个任务里它有77个做到SOTA或接近，覆盖单实体和跨实体的理解与生成。对做药物发现或蛋白工程的团队来说，真正的价值不在某个榜单分数，而在于一个通用模型能同时handle以前要拼好几个专用模型的活——不过80任务全SOTA这种说法需要看全文确认各任务的baseline强度。

一个模型原生打通分子+蛋白的序列、结构、语言，省去为不同任务拼专用模型的工程成本4B规模就能跑，对中小团队的部署门槛友好77/80的SOTA是亮点但要核实对比基线，别只看任务覆盖广度

原文：BioMatrix: Towards a Comprehensive Biological Foundation Model Spanning the Modality Matrix of Sequences, Structures, and Language

05 检索把passage的计算搬到线下，reranking才好部署

先把query和passage的计算解耦、让passage那一半提前编码搬到线下算好缓存——reranking要好部署，绕不开这一步。问题是reranker的惯常做法恰恰相反：不管底层是encoder还是decoder，都把query和passage拼在一起编码，两者的计算紧紧绑死，线上每来一个query都得把候选passage重新过一遍模型，延迟和成本都压在请求路径上。KaLM-Reranker-V1走的是「fast but not late interaction」：用encoder把passage提前编码好（还能用Matryoshka pooling压缩成不同维度），decoder只处理query侧的指令和意图，最后靠cross-attention做相关性建模。这样passage可以离线预算、缓存，线上只剩query侧的轻量计算，但又没退化成late interaction那种只靠向量点积、表达力受限的做法。效果上，BEIR持平Qwen3-Reranker这类工业级模型，0.27B的Nano版在LMEB上能跟7-12B的embedding模型掰手腕。不过多语言数据训得不多，MIRACL上的表现还需要看全文里的具体盘子才好下判断。

reranking层的延迟和成本常被RAG团队忽视，这篇正好动在passage预编码这个能省钱的地方passage离线算好可缓存，线上只跟query轻量交互，适合候选集大、QPS高的场景小到0.27B就能打，部署预算紧的团队值得试一版。

原文：KaLM-Reranker-V1: Fast but Not Late Interaction for Compressed Document Reranking

也值得关注

把「数据处理」本身训成一种能力 训练优化DataClaw0让agent主动裁剪、结构化原始多模态流，直接服务于post-training，而不是被动标注。链接

训手机agent，被真机环境逼出两套环境 Agent真机慢、有状态、有副作用、难重置，作者用真实app加mock app结合，给出训练开源模型做手机agent的recipe。链接

电脑操作agent的技能学习大多默认环境静态又安全 安全对齐SkillHarness专门处理prompt注入、弹窗这类对抗和动态风险下的安全技能学习。链接

把MoE的思路搬到GQA自注意力上 模型架构按token难度差异化激活注意力头，省下长上下文里二次方增长的算力。链接

长流程agent会过早认定一种证据解读，然后全程为它辩护 Agent只看最终答案的评分发现不了这种「过程崩塌」，这篇专门把它诊断出来。链接

把VLM当自动驾驶认知中枢，换个地理还泛化吗 评测Robusto-2拿利马、纽约这类新城市的OOD边角场景当试金石。链接

实体级成员推断：盘问LLM判断某个实体是否进过训练数据 安全对齐直接关乎隐私泄露和版权合规的风险评估。链接

今日观察

今天把终端、手机、企业三个毫不相干的agent场景摆到一起，会撞见一个不太显眼的共性：它们卡住的地方、使劲的地方，都不在RL算法或模型本身，而在「能不能造出真实、可执行、可验证的环境和任务数据」。CLI-Universe(2606.22883)直接把可执行训练数据稀缺称作critical bottleneck；Tmax(2606.23321)把terminal agent难训归因于没数据、没可复现的简单baseline；PhoneBuddy(2606.23049)被真机环境的「慢、有状态、有副作用、难重置」逼出真实加mock两套环境；EnterpriseClawBench(2606.23654)干脆放弃合成，从真实工作session里还原带fixture的可复现任务。扫一眼标题，你大概只会觉得「又来一批agent论文」；但底下真正的信号是——agent的工程价值，正从模型和算法那一层，悄悄迁到环境与可验证数据这一层。如果你在训或评自己的agent，下次开工前先别急着调RL、换模型，花点时间盘一下手里的环境：任务到底可不可执行、结果可不可自动验证、失败能不能复现重置——这三项往往比算法更决定你能走多远。

今日概览

重点关注

01 推理加速 大模型最后几层在偷偷把对的答案改「通顺」

02 评测 企业里agent真正要干的活，第一次有了真实样本

03 代码智能 训练terminal agent卡住的地方，原来不是算法