token概率直接当reward，零样本达0.95相关性

今日概览

LLM内部构建kernel行为的「世界模型」来规划优化路径，MoE等复杂kernel上比进化搜索快14倍，把算子调优从随机试错变成有规划的探索
VLM的token概率直接提取reward信号：预训练模型的logits里编码了任务进展信息，130+真实机器人任务上zero-shot相关性达0.947
Agent记忆系统的评估体系存在结构性缺陷，benchmark饱和、指标与语义效用脱节、换backbone结论就变。对搭建agent系统的团队来说是一份避坑清单
扩散语言模型的逆蒸馏从连续域搬到离散域，解决了唯一性和梯度稳定两个新问题，实现4到64倍步数压缩

重点关注

01 代码智能让LLM先「想明白」再改kernel，比盲目搜索快14倍

现有的LLM kernel优化方法基本是把模型当随机代码生成器——在进化搜索循环里不断变异、筛选，碰上需要多步协调修改的复杂kernel就容易卡住，因为中间步骤可能暂时变差，搜索就把这条路丢掉了。K-Search的核心洞察是把高层算法规划和底层代码实现拆开：LLM内部维护一个kernel行为的「世界模型」，先在策略层面想清楚优化路径，再去写具体实现。这个世界模型和搜索过程协同进化——每次实际执行的反馈会更新模型的认知，让后续规划更准确。实际效果上，在FlashInfer的GQA、MLA和MoE等复杂kernel上，K-Search平均比现有最好的进化搜索快2.1倍，MoE kernel上最高达到14.3倍。在GPUMode的TriMul任务上，K-Search在H100上跑到1030μs，超过了此前的进化搜索和人工方案。这个「先规划再实现」的思路对做ML infra的团队有直接参考价值——算子调优不一定要靠暴力搜索，让模型学会推理优化路径本身可能是更高效的方向。

将kernel优化从随机变异搜索升级为「世界模型引导的规划搜索」，能走通非单调优化路径MoE等复杂kernel提升最显著（14.3倍），简单kernel提升较小，说明方法优势在复杂场景思路可推广到其他需要多步结构变换的代码优化任务

原文：K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model

02 机器人预训练模型的隐藏宝藏：token概率本身就是奖励信号？

强化学习训练机器人有个经典难题：reward太稀疏，模型做了一堆动作，直到最后才知道成功还是失败。传统做法是训练一个专门的reward model来提供中间反馈，但这又引入了泛化性问题——换个任务换个机器人就不好使了。TOPReward的思路让人眼前一亮：直接从预训练VLM（视觉语言模型）的token输出概率中提取任务进展信号，不需要任何额外训练。关键洞察是，VLM在预训练阶段已经学到了「事情进行到哪一步」的世界知识，这些信息编码在token的logits里，只是之前没人去挖。在130多个真实机器人任务上zero-shot测试，TOPReward达到0.947的进度相关性，而之前最好的方法GVL在同一个开源模型上几乎是零相关——差距不是一点半点。这个发现的意义可能超出机器人领域：预训练模型的内部信号远比我们目前利用的要丰富得多。

从VLM的token概率直接提取reward信号，零样本泛化130+真实任务预训练模型的内部表示蕴含大量未被利用的结构化知识复杂长horizon任务的泛化性还需要更多验证

原文：TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

03 Agent Agent记忆系统的评估体系，可能从根上就不对

搭建过agent系统的团队大概都经历过这种困惑：记忆模块在benchmark上跑分不错，上线后却感觉不到明显收益，甚至不确定它到底有没有在起作用。这篇survey提供了一个解释——问题可能不在你的方案，而在评估体系本身。作者系统拆解了当前Agent记忆系统的评估方法，发现几个结构性问题：benchmark规模不足导致饱和效应，评估指标与实际语义效用脱节，同一套记忆方案换个backbone模型表现差异巨大。作者将记忆架构归纳为四种结构，并逐一分析了每种结构在延迟和吞吐上的系统开销——这些成本在多数论文中被直接忽略了。这不是一篇提出新方案的论文，而是一份帮你重新审视「我的记忆模块到底有没有用」的检查清单。

现有benchmark存在饱和效应，高分不代表记忆系统真正有效记忆维护带来的延迟和吞吐开销在工程部署中不可忽视评估Agent记忆时需要同时考虑backbone依赖性，换模型可能结论完全不同

原文：Anatomy of Agentic Memory: Taxonomy and Empirical Analysis of Evaluation and System Limitations

04 推理加速逆蒸馏搬进离散空间，扩散语言模型向实用迈了一步

扩散模型（Diffusion Model）在文本生成上已经展现出不错的效果，但有个绕不开的问题：多步采样让推理速度远慢于自回归模型，实际部署很难接受。IDLM把连续扩散中已有的逆蒸馏（Inverse Distillation）技术搬到离散文本域，但这一步并不简单——离散空间里反向传播不稳定，而且逆蒸馏的目标函数在离散情况下缺乏唯一性保证，容易收敛到次优解。他们给出了唯一解的理论证明，并引入梯度稳定的松弛方法来解决训练不稳定问题。最终在多个扩散语言模型上实现了4到64倍的步数压缩，同时保持了生成质量。这类工作对扩散语言模型能否真正走出实验室至关重要——生成质量再好，推理成本不降下来就没法用。

扩散语言模型效果好但多步采样是实用化的核心瓶颈逆蒸馏从连续搬到离散需要解决唯一性和梯度稳定两个新问题4-64倍步数压缩是扩散LM走向部署的关键一步

原文：IDLM: Inverse-distilled Diffusion Language Models

也值得关注

扩散模型缓存加速的新思路：按频谱演化规律而非原始特征距离决定何时复用中间结果。 推理加速链接

一步式文生图模型做图像编辑，关键是用低能量传输路径替代暴力向量运算。 图像生成链接

第一视角和第三视角之间建立物体级对应关系 多模态用cycle-consistent mask实现视角不变表征。链接

Google提出多模态个性化benchmark 评测用模拟数字足迹测试VLM从用户历史推断偏好的能力。链接

通用LLM Agent的test-time scaling评测 Agent更多推理时间在哪些场景有效、哪些场景纯粹浪费。链接

Agent失败不是能力不够而是路径漂移 Agent提出canonical path deviation作为可靠性的因果解释。链接

深度RL训练不稳定的新解法 训练优化各向同性高斯表征在非平稳目标下有可证明的优势。链接

MIT从计算复杂性角度回答为什么ReLU有效 可解释性比特模型下训练是NP完全的，实数模型下用ReLU则可行。链接

CLIP prompt tuning准确率上去了但置信度不可靠 多模态两个正则项修复校准问题。链接

检测LLM训练数据的新范式：主动重建攻击 安全对齐通过微调探针模型来判断数据是否被见过。链接

今日观察

我们习惯把大模型当黑箱用：喂入输入，拿走输出，中间发生了什么无所谓。但模型在生成输出的过程中产生的「副产品」——概率分布的形状、内部的状态表征——本身就携带着大量可利用的信息，只是一直被丢掉了。

TOPReward展示了一个很直接的例子：VLM的token概率分布里直接编码了任务进展信息，把它当reward用，不需要额外训练reward model，在130+真实机器人任务上zero-shot相关性达到0.947。K-Search则从另一个角度利用了模型内部信号——让LLM构建关于kernel行为的世界模型，用这个内部认知来规划搜索方向而非盲目变异。两个工作的共同点在于：它们都没有从外部引入新的监督信号（人工标注的reward函数、手工设计的benchmark），而是从模型在预训练阶段已经积累的知识中提取出可利用的结构。

这背后的逻辑很直觉——一个在海量数据上训练过的大模型，它的参数里沉淀的远不止「给定输入预测输出」这一件事。概率分布的形状、中间层的激活模式、不同token之间的相对置信度，这些「副产品」都携带着模型对世界的理解，只是传统pipeline只用了最终输出这一层。

当外部标注的边际成本越来越高，而预训练模型的能力越来越强，从模型内部挖掘信号的性价比会持续上升。如果你在搭建需要reward signal或评估函数的系统，值得花时间看看你使用的基础模型里有没有现成的、还没被利用的内部信号——可能比从头训一个专用模块更省事、泛化性也更好。