今日概览
- Agent记忆会忘错东西,根因在架构而非prompt:MIT横扫13种配置发现,LLM在记忆管线里坐的位置——靠近召回端还是改写端——直接锁定了系统会犯哪一类遗忘错误,只有挂在mutation端才能整体拉到91.7-93.2%。
- 模型的「诚实」会遗传,选基座那一刻就定了:负责忠于上下文、不胡编的truthful head会原封不动传给同基座的下游变体,连多模态改造都没动它,下游抗幻觉的底子在选型时就被决定。
- 大模型擅长看懂图,却几乎看不见像素级破绽:MLLM的语义理解集中在前中层,直接微调学取证信号反而会破坏语义表征,鉴伪得专门给它造一条「看见噪声」的残差通路。
- 1.5B小模型预测真实事件,赢过Claude Sonnet 3.5:Oxford用工具调用配GRPO把事件预测做成可RL的训练目标,小模型在同数据集的交叉熵指标上反超大模型。
重点关注
01 Agent 记忆会忘错东西,根因在架构布局而非prompt
LLM在agent记忆管线里坐的位置,直接决定了系统会犯哪一类遗忘错误。这篇MIT的工作把大家的注意力从「召回准不准」(已经被反复benchmark过)转到几乎没人测的另一端——负责改写、释放、清除记忆的control plane。在13种系统配置、385个对抗样本上,他们看到三种布局各有盲区:纯确定性规则能搞定按字面和时间的遗忘,但碰到改头换面的同一实体就崩(标识符混淆5%、跨语言0%);把LLM放在写入端能100%解决这种「同一事实换个说法」的归一化问题,却完全处理不了带意图的删除(前缀冲突、复合事实都是0%);只有把LLM挂在改写发生的那一刻(mutation-time hook),才能同时救回意图删除(78-85%)并把几乎所有类别一起拉亮(整体91.7-93.2%)。代价是每个case约2.3秒的改写延迟(确定性方案只要64-191毫秒),但召回路径完全不变,385个case跑一轮成本约0.17美元。作者还指出一个容易被忽视的事实:生产环境的故障大多是遗忘失败而非召回失败,而现有benchmark只量后者——这也是他们开源ForgetEval(MIT协议)想补的缺口。
02 可解释性 模型的「诚实」竟然会遗传,而且选基座那一刻就定了
我们一般以为,一个模型忠不忠于上下文、会不会胡编,是靠后续微调和对齐调出来的。这篇论文发现的现象有点反直觉:在LLM内部,负责「忠于上下文、不瞎编」的那批注意力头(truthful head),会原封不动地遗传给从同一基座微调出来的下游变体——哪怕经过了指令微调、甚至改造成多模态模型。作者横跨Vicuna、Qwen2.5、LLaMA2、Mistral四个家族量化了「头部诚实度分数」,发现它在家族内部高度稳定,根源是这些注意力头的权重在微调中几乎没被动过。顺手他们做了个叫TruthProbe的软门控,把这些诚实头的贡献放大,在HaluEval上提升了上下文忠实度,在POPE和CHAIR上压低了多模态幻觉。如果结论成立,实践含义很直接:下游模型抗幻觉的底子,很大程度上在你挑基座那一刻就被决定了,而不是靠后面微调能救回来的。
03 多模态 大模型擅长看懂图,却几乎看不见像素级的破绽
随着AI生图越来越逼真,靠「语义上有没有穿帮」来鉴伪正在失效,于是有人想直接用多模态大模型(MLLM)来抓造假。这篇工作做了一件更有价值的事:它逐层拆解后发现,MLLM的语义理解主要在前中层形成,而如果直接微调去学取证信号(噪声、频谱这类全频段痕迹),反而会破坏掉这些语义表征——本质上MLLM天生偏语义,对低层证据近乎失明。作者的解法Deep-VRM不去硬改前层,而是把取证信号当成一条残差通路注入中间层,和语义token融合后再往后传,让后续层同时做语义推理和信号级判断。结果是模型能根据输入自适应地决定该信赖哪一级证据,在多数benchmark上做到SOTA。但对从业者真正的信息量不在分数,而在那条边界:通用多模态模型不会现成就具备像素级取证能力,得专门给它造一条「看见噪声」的路。
04 推理 1.5B小模型预测真实事件,竟然赢过Claude Sonnet 3.5
事件预测一直被当成「只有大模型才碰得动」的任务——它开放、依赖现查信息、答案在训练截止之后才揭晓。Oxford这篇的核心贡献是把它改造成一个可RL的训练目标:给1.5B到14B的模型配上能查Wikipedia修订记录或新闻摘要的工具,再用GRPO(一种省显存的强化学习方法)微调,让模型学会基于实时信息给事件下概率。结果是把Qwen2.5的1.5B版本训到预测表现超过Claude Sonnet3.5——衡量标准是与市场共识概率的交叉熵。不过这个「赢」要放在同一数据集、同一指标下理解,而且作者明确讨论了预测的固有随机性(掷骰子那种aleatoric uncertainty)给能力划出的天花板,论文还罕见地写了一路上的各种死胡同。

也值得关注
今日观察
把控制面遗忘(2606.15903)和家族遗传的truthful head(2606.15821)放一起看,会浮现一条不显眼的共识:一个模型的关键行为,越来越被归因于它的「结构位置/出身」,而非「你拿它训了什么」。前者说遗忘的失败模式由LLM在记忆管线里的布局决定,后者说上下文忠实度由它继承自哪个基座决定——两篇都在把行为的解释权,从后期可调的训练,移交给前期就锁死的架构与血统。这不是那条「瓶颈从模型挪到环境」的老线索,而是另一回事:解释权不是横向转移,而是向上游回溯。对工程上的提醒很实在:有些能力和缺陷,在选型那一刻就定了,别指望微调阶段补救。下次选基座或定记忆架构前,先把「抗幻觉」「会不会忘错」这类关键行为列进选型清单去实测,而不是留到调优阶段才发现救不回来。