有状态embedding让260M压过8B

今日概览

检索不再是无状态查表：EvoEmbedding让embedding在顺序处理输入时维护一份持续更新的隐式记忆，260M级思路压过Qwen3-Embedding-8B等专用模型，还能泛化到训练窗口10倍长的上下文，朴素RAG装上它甚至超过专门的agentic memory系统。
给检索agent装上「何时该停」的仪表盘：CalVerT用校准过的自信度分数加grounding分数两个读数，让agent判断答案是没把握、缺支撑还是已经够了，四个QA基准上该补的检索补上、多余的砍掉，喂进RL训练也比没有它的agent更好（HF upvotes为0，效果数字克制看待）。
3DGS重建的逼真场景终于能进物理管线：靠一层表示抽象把splat、网格、流体统一翻成物理粒子做场景级异构仿真，CVPR接收；不过精度和实时性摘要里没给，落地前得看全文确认。
一个事实由多处不连续地共同支撑：ACL工作沿属性计算路径拆开，发现事实检索是冗余、分布式、非连续的，「定位到一处就改掉一个事实」的编辑假设站不住（在LLaMA 3.1 8B和Qwen3 8B上验证）。

重点关注

01 检索当embedding学会记住前文，RAG还需要外挂记忆系统吗

检索这一层其实一直是「无状态」的：同一个query，不管前面读过什么，编码出来的向量都一样。EvoEmbedding把这件事改成了有状态——模型在顺序处理输入时维护一份持续更新的隐式记忆(latent memory)，编码时把这份记忆和原文一起喂进去，于是同一个query会根据已经读到的上下文，检索出不同的目标。这意味着长上下文里那种「信息在演进、需要连续追踪状态」的场景，不用再靠外挂一套agentic memory来打补丁，而是直接在retrieval层就完成了状态跟踪。工程上有两个细节值得留意：用memory queue防止循环编码时的表示坍缩，再加segment-batching把训练加速3.8倍——这是把递归编码训练真正跑通的关键。结果也够硬：它压过了体量大得多的专用模型(Qwen3-Embedding-8B、KaLM-Embedding-Gemma3-12B)，还能泛化到比训练窗口长10倍的上下文，最有意思的一句是——一个朴素RAG管线装上它，居然超过了专门的agentic memory系统。有代码、HF热度也在涨(10 upvotes)，做长上下文检索或agent记忆的团队值得拉下来动手验一验。

检索从「孤立查表」变成「有状态连续过程」，状态跟踪下沉到embedding层而非外挂记忆260M级思路压过8B/12B专用模型，长上下文场景里参数量不再是决定因素朴素RAG+EvoEmbedding超过专用agentic memory系统——如果成立，现有记忆架构可能可以大幅简化，但这条结论得自己拿数据复现确认。

原文：EvoEmbedding: Evolvable Representations for Long-Context Retrieval and Agentic Memory

02 Agent 给检索agent装一个「何时该停」的仪表盘

知识密集型问答里的agent有个反复出现的毛病：它一边行动一边对自己的状态半盲——不知道当前答案到底是没把握、缺证据支撑、还是其实已经够了。结果就是两头犯错：对没有依据的答案过度自信，拉低准确率；或者证据明明够了还在反复检索，白烧算力。CalVerT的思路是给agent的状态里多塞两个读数——一个校准过的自信度分数，一个衡量答案是否有据可依的grounding分数——相当于在仪表盘上加了两根指针。它在四个QA基准上能把该补检索的补上、把多余的检索砍掉，而且不光免训练场景有效，把这层telemetry喂进RL训练后也比同样训练但没有它的agent更好。HF upvotes还是0，效果数字不必当真，真正值得记下的是这个角度：与其优化agent怎么行动，不如先让它看清自己处在什么状态。

检索agent的浪费和出错，很多源于它对「自己当前状态」是盲的，而非推理能力不够校准过的自信度+grounding分数可以作为现成插件接进已有QA框架，不需要重训这套telemetry喂进RL也能抬一截，说明「让模型看清状态」和「让模型学得更好」是可叠加的两件事。

原文：CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks

03 机器人把3DGS重建的逼真场景接进物理交互管线

3D高斯泼溅（3DGS）能把真实场景重建得非常逼真，但生产级物理引擎读不懂这种表示，重建出来的资产只能看不能碰。以往给3DGS加物理的工作大多是单体式的——各搞各的，只能演示理想平面上孤立物体的运动，碰不了复杂的静态碰撞几何，也处理不了异构资产。这篇的思路是加一层「表示抽象层」：把3DGS、虚拟网格、流体这些不同资产统一翻译成物理粒子集，丢进一个与求解器无关的物理内核里算，再把结果映射回各自的视觉表示。这样可变形的splat资产、CG网格、流体和大尺度实拍静态环境就能在同一条管线里做双向耦合交互。论文被CVPR接收，但只看摘要还看不出仿真精度和实时性如何，这两点对落地最关键，需要看全文确认。

重建资产能否进物理管线交互是仿真/具身的真痛点，这篇给了统一抽象的解法价值在「场景级+异构」，不再局限于理想平面上的单个物体判断能否用，关键看精度和实时性，摘要里没给，得等全文或代码。

原文：Scene-Level Heterogeneous Physics Simulation with 3D Gaussian Splats

04 可解释性模型编辑改一个事实，为什么总是按下葫芦浮起瓢

如果你做过知识编辑或幻觉归因，大概都遇到过这种诡异现象：明明定位到了存某个事实的那几层、改掉了，模型却换个问法又把旧答案吐出来。这篇ACL工作沿着「属性计算路径」——也就是从实体表示一步步算出某个属性所需的计算序列——把过程拆开，给了一个解释：事实检索根本不是一条清晰路径上的查找。在LLaMA 3.1 8B和Qwen3 8B上，研究者用迭代patching找最小必要层集，发现这些路径是非连续的(经常跳层)，而且同一个实体、同一条事实存在多条功能等价的路径互相冗余。换句话说，一个事实是被多处、不连续地共同支撑的，这恰好解释了「定位准、编辑却失效」的老问题。当然这只在两个8B模型上验证过，能否推广到更大规模还要看后续。

「定位到一处就能改掉一个事实」的假设在冗余分布式存储下站不住，做模型编辑的得换思路幻觉归因若只盯单一层或单一路径，容易归错因知识存储远比定位-编辑范式假设的复杂，相关工作值得持续关注

原文：Factual Retrieval in LLMs Is a Redundant, Distributed and Non-Contiguous Process

也值得关注

数学RL卡在「难度断层」 推理搜索空间大、奖励稀疏一直是数学搜索类RL的硬骨头，这篇以Andrews-Curtis猜想为例点出two-hump这一结构性障碍并尝试架桥。链接

说清「为什么这个蒸馏集更好」 训练优化数据集蒸馏能省训练成本，但好坏的成因一直说不清，这篇从离散视觉tokenizer的视角给出结构化评估（ECCV）。链接

归一化观测空间下抬样本效率 训练优化用观测动力学预测学到的表示去增强model-free RL，NASDAQ专门针对归一化观测空间下的难点（EPFL）。链接

用Jacobian上的正交方向定义隐概念 可解释性从函数视角做无监督解耦，把隐概念定义为生成映射局部正交的方向，并证明可辨识性（ICML）。链接

只有一个训练域时靠生成扩域 图像生成用对抗式域prompt调优加生成造OOD数据，把单一训练域往外撑做单域泛化（CVPR）。链接

给室内占据预测补上全局监督 机器人高斯基元做稀疏3D表示时voxel分类只给局部约束，FLM-Occ用前馈似然最大化补上全局这一块（ECCV）。链接

今日观察

EvoEmbedding做的是检索表示，CalVerT做的是检索决策，落点离得很远，但两边其实在拆同一颗螺丝：检索是无状态的、一次性的查表。EvoEmbedding在表示层动手，让记忆随顺序输入持续演化、能跟踪状态，升级的是「存进去的到底是什么」；CalVerT在决策层动手，给agent一组校准过的信号去判断「手里的证据够不够、要不要再查一次」，升级的是「知不知道什么时候该停」。一个管内容，一个管时机，合起来指向同一件事——把检索当成一个有状态的过程来设计，而不是孤立的一次查询。

这对做RAG或agent的读者是个具体提醒：当系统在长对话、多跳问答里表现不稳时，先别急着调召回准确率，回头看看系统对「当前检索到了什么状态」有没有概念。可以做个小实验——在你现有的检索链路里加一个最朴素的状态读数（比如「本轮新增证据是否真的支撑了答案」），观察它能不能砍掉一批冗余检索、挡住一批无据回答，再决定要不要往表示层或决策层深挖。