1.5B模型预测事件赢过Sonnet3.5

今日概览

Agent记忆会忘错东西，根因在架构而非prompt：MIT横扫13种配置发现，LLM在记忆管线里坐的位置——靠近召回端还是改写端——直接锁定了系统会犯哪一类遗忘错误，只有挂在mutation端才能整体拉到91.7-93.2%。
模型的「诚实」会遗传，选基座那一刻就定了：负责忠于上下文、不胡编的truthful head会原封不动传给同基座的下游变体，连多模态改造都没动它，下游抗幻觉的底子在选型时就被决定。
大模型擅长看懂图，却几乎看不见像素级破绽：MLLM的语义理解集中在前中层，直接微调学取证信号反而会破坏语义表征，鉴伪得专门给它造一条「看见噪声」的残差通路。
1.5B小模型预测真实事件，赢过Claude Sonnet 3.5：Oxford用工具调用配GRPO把事件预测做成可RL的训练目标，小模型在同数据集的交叉熵指标上反超大模型。

重点关注

01 Agent 记忆会忘错东西，根因在架构布局而非prompt

LLM在agent记忆管线里坐的位置，直接决定了系统会犯哪一类遗忘错误。这篇MIT的工作把大家的注意力从「召回准不准」（已经被反复benchmark过）转到几乎没人测的另一端——负责改写、释放、清除记忆的control plane。在13种系统配置、385个对抗样本上，他们看到三种布局各有盲区：纯确定性规则能搞定按字面和时间的遗忘，但碰到改头换面的同一实体就崩（标识符混淆5%、跨语言0%）；把LLM放在写入端能100%解决这种「同一事实换个说法」的归一化问题，却完全处理不了带意图的删除（前缀冲突、复合事实都是0%）；只有把LLM挂在改写发生的那一刻（mutation-time hook），才能同时救回意图删除（78-85%）并把几乎所有类别一起拉亮（整体91.7-93.2%）。代价是每个case约2.3秒的改写延迟（确定性方案只要64-191毫秒），但召回路径完全不变，385个case跑一轮成本约0.17美元。作者还指出一个容易被忽视的事实：生产环境的故障大多是遗忘失败而非召回失败，而现有benchmark只量后者——这也是他们开源ForgetEval（MIT协议）想补的缺口。

记忆遗忘不是调prompt能修的bug，是架构布局的产物，选错LLM位置等于提前选定了一类失败模式想同时覆盖归一化和意图删除，得把改写逻辑放在mutation端而非写入端，但要接受秒级延迟换准确率如果你在做agent memory，现在多数评测只测召回，遗忘维度的盲区值得用ForgetEval这类工具补上。

原文：Control-Plane Placement Shapes Forgetting: An Architectural Study of Agent Memory Across Thirteen System Configurations

02 可解释性模型的「诚实」竟然会遗传，而且选基座那一刻就定了

我们一般以为，一个模型忠不忠于上下文、会不会胡编，是靠后续微调和对齐调出来的。这篇论文发现的现象有点反直觉：在LLM内部，负责「忠于上下文、不瞎编」的那批注意力头(truthful head)，会原封不动地遗传给从同一基座微调出来的下游变体——哪怕经过了指令微调、甚至改造成多模态模型。作者横跨Vicuna、Qwen2.5、LLaMA2、Mistral四个家族量化了「头部诚实度分数」,发现它在家族内部高度稳定,根源是这些注意力头的权重在微调中几乎没被动过。顺手他们做了个叫TruthProbe的软门控,把这些诚实头的贡献放大,在HaluEval上提升了上下文忠实度,在POPE和CHAIR上压低了多模态幻觉。如果结论成立,实践含义很直接:下游模型抗幻觉的底子,很大程度上在你挑基座那一刻就被决定了,而不是靠后面微调能救回来的。

抗幻觉能力主要由基座决定，选基座比调对齐更影响下游忠实度同一基座衍生出的多模态变体会「继承」基座的诚实头，可据此预判其幻觉表现TruthProbe这类放大诚实头的软门控，给了一条不重训就降幻觉的低成本路径

原文：The Truth Stays in the Family: Enhancing Contextual Grounding via Inherited Truthful Heads in Model Lineages

03 多模态大模型擅长看懂图，却几乎看不见像素级的破绽

随着AI生图越来越逼真，靠「语义上有没有穿帮」来鉴伪正在失效，于是有人想直接用多模态大模型（MLLM）来抓造假。这篇工作做了一件更有价值的事：它逐层拆解后发现，MLLM的语义理解主要在前中层形成，而如果直接微调去学取证信号（噪声、频谱这类全频段痕迹），反而会破坏掉这些语义表征——本质上MLLM天生偏语义，对低层证据近乎失明。作者的解法Deep-VRM不去硬改前层，而是把取证信号当成一条残差通路注入中间层，和语义token融合后再往后传，让后续层同时做语义推理和信号级判断。结果是模型能根据输入自适应地决定该信赖哪一级证据，在多数benchmark上做到SOTA。但对从业者真正的信息量不在分数，而在那条边界：通用多模态模型不会现成就具备像素级取证能力，得专门给它造一条「看见噪声」的路。

MLLM的语义能力集中在前中层，直接微调学低层取证信号会破坏语义表征，这是鉴伪不能直接套通用模型的根本原因残差注入是一种「不动语义、另开通路喂低层信号」的可复用思路做检测/鉴伪方向的团队应假设MLLM对像素级证据默认失明，需专门设计而非指望开箱即用。

原文：Deep Residual Injection for Full-Spectrum Forensic Signal Perception in Multimodal Large Language Models

04 推理 1.5B小模型预测真实事件，竟然赢过Claude Sonnet 3.5

事件预测一直被当成「只有大模型才碰得动」的任务——它开放、依赖现查信息、答案在训练截止之后才揭晓。Oxford这篇的核心贡献是把它改造成一个可RL的训练目标：给1.5B到14B的模型配上能查Wikipedia修订记录或新闻摘要的工具，再用GRPO（一种省显存的强化学习方法）微调，让模型学会基于实时信息给事件下概率。结果是把Qwen2.5的1.5B版本训到预测表现超过Claude Sonnet3.5——衡量标准是与市场共识概率的交叉熵。不过这个「赢」要放在同一数据集、同一指标下理解，而且作者明确讨论了预测的固有随机性（掷骰子那种aleatoric uncertainty）给能力划出的天花板，论文还罕见地写了一路上的各种死胡同。

工具调用+GRPO能把「需要现查信息」的开放任务拉进可训练范围，不必非用大模型小模型超过Sonnet3.5的结论限于同数据集的交叉熵指标，别外推成全面碾压论文坦白记录了失败路径，对想复现这条路线的团队比结论更有参考价值。

原文：Reinforcement Learning for LLM-based Event Forecasting

也值得关注

把数据流形放到显微镜下，实测泛化理论赖以成立的几何假设到底成不成立 可解释性intrinsic dimension、曲率这些经常被默认的假设，在真实数据上未必站得住，做理论与实践对账的人值得一看。链接

flow matching默认把信号当欧氏空间里的点，漏掉了fMRI脑图这类数据的拓扑结构 AI for Science这篇给生成框架补上拓扑这一维，做结构化信号生成的可以关注。链接

今日观察

把控制面遗忘（2606.15903）和家族遗传的truthful head（2606.15821）放一起看，会浮现一条不显眼的共识：一个模型的关键行为，越来越被归因于它的「结构位置/出身」，而非「你拿它训了什么」。前者说遗忘的失败模式由LLM在记忆管线里的布局决定，后者说上下文忠实度由它继承自哪个基座决定——两篇都在把行为的解释权，从后期可调的训练，移交给前期就锁死的架构与血统。这不是那条「瓶颈从模型挪到环境」的老线索，而是另一回事：解释权不是横向转移，而是向上游回溯。对工程上的提醒很实在：有些能力和缺陷，在选型那一刻就定了，别指望微调阶段补救。下次选基座或定记忆架构前，先把「抗幻觉」「会不会忘错」这类关键行为列进选型清单去实测，而不是留到调优阶段才发现救不回来。