今日概览
- 检索不再是无状态查表:EvoEmbedding让embedding在顺序处理输入时维护一份持续更新的隐式记忆,260M级思路压过Qwen3-Embedding-8B等专用模型,还能泛化到训练窗口10倍长的上下文,朴素RAG装上它甚至超过专门的agentic memory系统。
- 给检索agent装上「何时该停」的仪表盘:CalVerT用校准过的自信度分数加grounding分数两个读数,让agent判断答案是没把握、缺支撑还是已经够了,四个QA基准上该补的检索补上、多余的砍掉,喂进RL训练也比没有它的agent更好(HF upvotes为0,效果数字克制看待)。
- 3DGS重建的逼真场景终于能进物理管线:靠一层表示抽象把splat、网格、流体统一翻成物理粒子做场景级异构仿真,CVPR接收;不过精度和实时性摘要里没给,落地前得看全文确认。
- 一个事实由多处不连续地共同支撑:ACL工作沿属性计算路径拆开,发现事实检索是冗余、分布式、非连续的,「定位到一处就改掉一个事实」的编辑假设站不住(在LLaMA 3.1 8B和Qwen3 8B上验证)。
重点关注
01 检索 当embedding学会记住前文,RAG还需要外挂记忆系统吗
检索这一层其实一直是「无状态」的:同一个query,不管前面读过什么,编码出来的向量都一样。EvoEmbedding把这件事改成了有状态——模型在顺序处理输入时维护一份持续更新的隐式记忆(latent memory),编码时把这份记忆和原文一起喂进去,于是同一个query会根据已经读到的上下文,检索出不同的目标。这意味着长上下文里那种「信息在演进、需要连续追踪状态」的场景,不用再靠外挂一套agentic memory来打补丁,而是直接在retrieval层就完成了状态跟踪。工程上有两个细节值得留意:用memory queue防止循环编码时的表示坍缩,再加segment-batching把训练加速3.8倍——这是把递归编码训练真正跑通的关键。结果也够硬:它压过了体量大得多的专用模型(Qwen3-Embedding-8B、KaLM-Embedding-Gemma3-12B),还能泛化到比训练窗口长10倍的上下文,最有意思的一句是——一个朴素RAG管线装上它,居然超过了专门的agentic memory系统。有代码、HF热度也在涨(10 upvotes),做长上下文检索或agent记忆的团队值得拉下来动手验一验。
原文:EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory
02 Agent 给检索agent装一个「何时该停」的仪表盘
知识密集型问答里的agent有个反复出现的毛病:它一边行动一边对自己的状态半盲——不知道当前答案到底是没把握、缺证据支撑、还是其实已经够了。结果就是两头犯错:对没有依据的答案过度自信,拉低准确率;或者证据明明够了还在反复检索,白烧算力。CalVerT的思路是给agent的状态里多塞两个读数——一个校准过的自信度分数,一个衡量答案是否有据可依的grounding分数——相当于在仪表盘上加了两根指针。它在四个QA基准上能把该补检索的补上、把多余的检索砍掉,而且不光免训练场景有效,把这层telemetry喂进RL训练后也比同样训练但没有它的agent更好。HF upvotes还是0,效果数字不必当真,真正值得记下的是这个角度:与其优化agent怎么行动,不如先让它看清自己处在什么状态。
03 机器人 把3DGS重建的逼真场景接进物理交互管线
3D高斯泼溅(3DGS)能把真实场景重建得非常逼真,但生产级物理引擎读不懂这种表示,重建出来的资产只能看不能碰。以往给3DGS加物理的工作大多是单体式的——各搞各的,只能演示理想平面上孤立物体的运动,碰不了复杂的静态碰撞几何,也处理不了异构资产。这篇的思路是加一层「表示抽象层」:把3DGS、虚拟网格、流体这些不同资产统一翻译成物理粒子集,丢进一个与求解器无关的物理内核里算,再把结果映射回各自的视觉表示。这样可变形的splat资产、CG网格、流体和大尺度实拍静态环境就能在同一条管线里做双向耦合交互。论文被CVPR接收,但只看摘要还看不出仿真精度和实时性如何,这两点对落地最关键,需要看全文确认。
原文:Scene-Level Heterogeneous Physics Simulation with 3D Gaussian Splats
04 可解释性 模型编辑改一个事实,为什么总是按下葫芦浮起瓢
如果你做过知识编辑或幻觉归因,大概都遇到过这种诡异现象:明明定位到了存某个事实的那几层、改掉了,模型却换个问法又把旧答案吐出来。这篇ACL工作沿着「属性计算路径」——也就是从实体表示一步步算出某个属性所需的计算序列——把过程拆开,给了一个解释:事实检索根本不是一条清晰路径上的查找。在LLaMA 3.1 8B和Qwen3 8B上,研究者用迭代patching找最小必要层集,发现这些路径是非连续的(经常跳层),而且同一个实体、同一条事实存在多条功能等价的路径互相冗余。换句话说,一个事实是被多处、不连续地共同支撑的,这恰好解释了「定位准、编辑却失效」的老问题。当然这只在两个8B模型上验证过,能否推广到更大规模还要看后续。
原文:Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process

也值得关注
今日观察
EvoEmbedding做的是检索表示,CalVerT做的是检索决策,落点离得很远,但两边其实在拆同一颗螺丝:检索是无状态的、一次性的查表。EvoEmbedding在表示层动手,让记忆随顺序输入持续演化、能跟踪状态,升级的是「存进去的到底是什么」;CalVerT在决策层动手,给agent一组校准过的信号去判断「手里的证据够不够、要不要再查一次」,升级的是「知不知道什么时候该停」。一个管内容,一个管时机,合起来指向同一件事——把检索当成一个有状态的过程来设计,而不是孤立的一次查询。
这对做RAG或agent的读者是个具体提醒:当系统在长对话、多跳问答里表现不稳时,先别急着调召回准确率,回头看看系统对「当前检索到了什么状态」有没有概念。可以做个小实验——在你现有的检索链路里加一个最朴素的状态读数(比如「本轮新增证据是否真的支撑了答案」),观察它能不能砍掉一批冗余检索、挡住一批无据回答,再决定要不要往表示层或决策层深挖。