有状态embedding让260M压过8B

今日概览

  • 检索不再是无状态查表:EvoEmbedding让embedding在顺序处理输入时维护一份持续更新的隐式记忆,260M级思路压过Qwen3-Embedding-8B等专用模型,还能泛化到训练窗口10倍长的上下文,朴素RAG装上它甚至超过专门的agentic memory系统。
  • 给检索agent装上「何时该停」的仪表盘:CalVerT用校准过的自信度分数加grounding分数两个读数,让agent判断答案是没把握、缺支撑还是已经够了,四个QA基准上该补的检索补上、多余的砍掉,喂进RL训练也比没有它的agent更好(HF upvotes为0,效果数字克制看待)。
  • 3DGS重建的逼真场景终于能进物理管线:靠一层表示抽象把splat、网格、流体统一翻成物理粒子做场景级异构仿真,CVPR接收;不过精度和实时性摘要里没给,落地前得看全文确认。
  • 一个事实由多处不连续地共同支撑:ACL工作沿属性计算路径拆开,发现事实检索是冗余、分布式、非连续的,「定位到一处就改掉一个事实」的编辑假设站不住(在LLaMA 3.1 8B和Qwen3 8B上验证)。

重点关注

01 检索 当embedding学会记住前文,RAG还需要外挂记忆系统吗

检索这一层其实一直是「无状态」的:同一个query,不管前面读过什么,编码出来的向量都一样。EvoEmbedding把这件事改成了有状态——模型在顺序处理输入时维护一份持续更新的隐式记忆(latent memory),编码时把这份记忆和原文一起喂进去,于是同一个query会根据已经读到的上下文,检索出不同的目标。这意味着长上下文里那种「信息在演进、需要连续追踪状态」的场景,不用再靠外挂一套agentic memory来打补丁,而是直接在retrieval层就完成了状态跟踪。工程上有两个细节值得留意:用memory queue防止循环编码时的表示坍缩,再加segment-batching把训练加速3.8倍——这是把递归编码训练真正跑通的关键。结果也够硬:它压过了体量大得多的专用模型(Qwen3-Embedding-8B、KaLM-Embedding-Gemma3-12B),还能泛化到比训练窗口长10倍的上下文,最有意思的一句是——一个朴素RAG管线装上它,居然超过了专门的agentic memory系统。有代码、HF热度也在涨(10 upvotes),做长上下文检索或agent记忆的团队值得拉下来动手验一验。

检索从「孤立查表」变成「有状态连续过程」,状态跟踪下沉到embedding层而非外挂记忆260M级思路压过8B/12B专用模型,长上下文场景里参数量不再是决定因素朴素RAG+EvoEmbedding超过专用agentic memory系统——如果成立,现有记忆架构可能可以大幅简化,但这条结论得自己拿数据复现确认。

02 Agent 给检索agent装一个「何时该停」的仪表盘

知识密集型问答里的agent有个反复出现的毛病:它一边行动一边对自己的状态半盲——不知道当前答案到底是没把握、缺证据支撑、还是其实已经够了。结果就是两头犯错:对没有依据的答案过度自信,拉低准确率;或者证据明明够了还在反复检索,白烧算力。CalVerT的思路是给agent的状态里多塞两个读数——一个校准过的自信度分数,一个衡量答案是否有据可依的grounding分数——相当于在仪表盘上加了两根指针。它在四个QA基准上能把该补检索的补上、把多余的检索砍掉,而且不光免训练场景有效,把这层telemetry喂进RL训练后也比同样训练但没有它的agent更好。HF upvotes还是0,效果数字不必当真,真正值得记下的是这个角度:与其优化agent怎么行动,不如先让它看清自己处在什么状态。

检索agent的浪费和出错,很多源于它对「自己当前状态」是盲的,而非推理能力不够校准过的自信度+grounding分数可以作为现成插件接进已有QA框架,不需要重训这套telemetry喂进RL也能抬一截,说明「让模型看清状态」和「让模型学得更好」是可叠加的两件事。

03 机器人 把3DGS重建的逼真场景接进物理交互管线

3D高斯泼溅(3DGS)能把真实场景重建得非常逼真,但生产级物理引擎读不懂这种表示,重建出来的资产只能看不能碰。以往给3DGS加物理的工作大多是单体式的——各搞各的,只能演示理想平面上孤立物体的运动,碰不了复杂的静态碰撞几何,也处理不了异构资产。这篇的思路是加一层「表示抽象层」:把3DGS、虚拟网格、流体这些不同资产统一翻译成物理粒子集,丢进一个与求解器无关的物理内核里算,再把结果映射回各自的视觉表示。这样可变形的splat资产、CG网格、流体和大尺度实拍静态环境就能在同一条管线里做双向耦合交互。论文被CVPR接收,但只看摘要还看不出仿真精度和实时性如何,这两点对落地最关键,需要看全文确认。

重建资产能否进物理管线交互是仿真/具身的真痛点,这篇给了统一抽象的解法价值在「场景级+异构」,不再局限于理想平面上的单个物体判断能否用,关键看精度和实时性,摘要里没给,得等全文或代码。

04 可解释性 模型编辑改一个事实,为什么总是按下葫芦浮起瓢

如果你做过知识编辑或幻觉归因,大概都遇到过这种诡异现象:明明定位到了存某个事实的那几层、改掉了,模型却换个问法又把旧答案吐出来。这篇ACL工作沿着「属性计算路径」——也就是从实体表示一步步算出某个属性所需的计算序列——把过程拆开,给了一个解释:事实检索根本不是一条清晰路径上的查找。在LLaMA 3.1 8B和Qwen3 8B上,研究者用迭代patching找最小必要层集,发现这些路径是非连续的(经常跳层),而且同一个实体、同一条事实存在多条功能等价的路径互相冗余。换句话说,一个事实是被多处、不连续地共同支撑的,这恰好解释了「定位准、编辑却失效」的老问题。当然这只在两个8B模型上验证过,能否推广到更大规模还要看后续。

「定位到一处就能改掉一个事实」的假设在冗余分布式存储下站不住,做模型编辑的得换思路幻觉归因若只盯单一层或单一路径,容易归错因知识存储远比定位-编辑范式假设的复杂,相关工作值得持续关注
有状态embedding让260M压过8B

也值得关注

05
数学RL卡在「难度断层」 推理搜索空间大、奖励稀疏一直是数学搜索类RL的硬骨头,这篇以Andrews-Curtis猜想为例点出two-hump这一结构性障碍并尝试架桥。链接
06
说清「为什么这个蒸馏集更好」 训练优化数据集蒸馏能省训练成本,但好坏的成因一直说不清,这篇从离散视觉tokenizer的视角给出结构化评估(ECCV)。链接
07
归一化观测空间下抬样本效率 训练优化用观测动力学预测学到的表示去增强model-free RL,NASDAQ专门针对归一化观测空间下的难点(EPFL)。链接
08
用Jacobian上的正交方向定义隐概念 可解释性从函数视角做无监督解耦,把隐概念定义为生成映射局部正交的方向,并证明可辨识性(ICML)。链接
09
只有一个训练域时靠生成扩域 图像生成用对抗式域prompt调优加生成造OOD数据,把单一训练域往外撑做单域泛化(CVPR)。链接
10
给室内占据预测补上全局监督 机器人高斯基元做稀疏3D表示时voxel分类只给局部约束,FLM-Occ用前馈似然最大化补上全局这一块(ECCV)。链接

今日观察

EvoEmbedding做的是检索表示,CalVerT做的是检索决策,落点离得很远,但两边其实在拆同一颗螺丝:检索是无状态的、一次性的查表。EvoEmbedding在表示层动手,让记忆随顺序输入持续演化、能跟踪状态,升级的是「存进去的到底是什么」;CalVerT在决策层动手,给agent一组校准过的信号去判断「手里的证据够不够、要不要再查一次」,升级的是「知不知道什么时候该停」。一个管内容,一个管时机,合起来指向同一件事——把检索当成一个有状态的过程来设计,而不是孤立的一次查询。

这对做RAG或agent的读者是个具体提醒:当系统在长对话、多跳问答里表现不稳时,先别急着调召回准确率,回头看看系统对「当前检索到了什么状态」有没有概念。可以做个小实验——在你现有的检索链路里加一个最朴素的状态读数(比如「本轮新增证据是否真的支撑了答案」),观察它能不能砍掉一批冗余检索、挡住一批无据回答,再决定要不要往表示层或决策层深挖。