示例图对替代prompt,Agent筛信息暗藏偏心

今日概览

  • 智谱GLM-5开源,核心架构声称尚待验证,DSA同时宣称降成本、保长上下文、提推理能力——三个通常互相矛盾的目标,等社区复现比看官方benchmark更实在。
  • LLM Agent筛选信息时系统性偏向特定来源:CMU对12个模型的控制实验发现,来源偏好有时压过内容相关性,显式提示「保持中立」也无法消除。
  • LoRA基底分解把视觉变换参数化为连续空间,NVIDIA的方案让一对示例图即可指定任意变换方向,不再需要文字描述难以言表的视觉效果。
  • 双路径记忆检索在长期记忆benchmark取得当前最优。Mnemis在向量召回之上叠加层次化图结构的推理路径,对构建有持久记忆的对话系统有直接参考价值。

重点关注

01 模型架构 「Vibe Coding到Agentic Engineering」——智谱GLM-5的口号比技术走得更远?

智谱给GLM-5起了个抢眼的副标题,但「从vibe coding到agentic engineering」更像是营销定位而非技术突破的描述。抛开口号,值得拆解的是两个架构选择:一是DSA(论文未详细展开的新架构),声称同时降低训练和推理成本并保持长上下文能力——这三个目标通常互相矛盾,摘要中没有给出具体的成本对比数字,需要看全文确认实际trade-off。二是异步RL后训练基础设施,把数据生成和训练解耦,让模型能从更长horizon的agent交互中学习。这个方向本身合理——RL训练的瓶颈确实常在数据生成端,但「效率大幅提升」的幅度同样缺乏独立验证。摘要中提到「在主要开放benchmark上达到SOTA」,但智谱作为模型发布方自报的benchmark成绩,在没有第三方复现前只能作为参考。对从业者来说,更值得关注的信号是代码和模型已经开源——这意味着社区很快就能给出独立评估,到时候架构选择的实际价值自然会浮出水面。

DSA架构同时声称降成本和保长上下文,但摘要缺乏具体对比数据,需等全文和独立测试异步RL解耦训练与生成的思路合理,关键看实际agent任务的提升幅度模型已开源,社区复现结果比官方benchmark更值得等待

02 安全对齐 LLM Agent筛选信息时存在隐性来源偏好,用户毫不知情

LLM Agent越来越多地充当信息中间层——检索、筛选、综合,最终决定用户看到什么。CMU对6家厂商的12个模型做了控制实验,发现多数模型面对带来源标注的信息时,会系统性地偏向某些出版商或平台,即便明确提示「保持中立」也无法消除。更关键的是,这种来源偏好有时会压过内容本身的相关性——模型选择呈现哪条信息,部分取决于信息挂了谁的名字。对于用LLM做信息检索、推荐或决策辅助的产品,这意味着需要主动审计模型的来源偏好,而不是默认它是中立的。

12个主流模型普遍存在可预测的来源偏好,显式提示无法消除来源偏好有时压过内容相关性,实质性影响用户看到的信息排序用LLM做信息筛选的产品需要把来源偏好纳入审计清单

03 图像生成 不用文字描述,一对图片就能指定任意视觉变换?

「把图片变成铅笔素描」容易说,但「那种有点褪色、带胶片颗粒感、高光偏青的效果」呢——文字描述的表达力很快就会触顶。NVIDIA的LoRWeB做了一件很漂亮的事:学出一组LoRA基底模块,每个代表一种基础视觉变换,通过线性组合来表示任意新变换,相当于给图像编辑建了一个连续的坐标系。使用时只需给一对示例图(「从A到A'」),一个轻量编码器就能在这个坐标系中定位变换方向,然后把同样的效果施加到任何新图片上。以往单个固定LoRA很难覆盖多样的变换类型,而基底分解让模型在推理时动态组合出训练中没见过的变换,泛化能力明显优于现有方案。对做图像编辑产品的团队来说,「用示例图对指挥编辑」比文字prompt精确得多,这个交互范式值得关注。

LoRA基底分解将视觉变换空间参数化,单一模型覆盖多样变换且泛化显著优于固定LoRA方案「示例图对」交互范式比文字prompt更适合表达难以言表的视觉效果,产品化潜力大推理时动态组合基底,不需要为每种新变换重新训练

04 检索 向量搜索快而不聪明,双路径架构补上推理检索

RAG的向量相似度检索本质上是System 1式操作——快速匹配表面语义,但碰到需要多步关联的查询就力不从心。Mnemis在此基础上叠加了一条「慢思考」路径:将记忆组织为层次化图结构,通过自顶向下的遍历做全局筛选,覆盖那些语义相似度搜不到但逻辑上相关的信息。两条路径互补,一条负责快速召回,一条负责结构化推理。在长期记忆benchmark上表现扎实,LoCoMo得分93.9,LongMemEval-S得分91.6,均为当前最优(基于GPT-4.1-mini)。对构建有长期记忆能力的对话系统或个人助理,这个双路径架构有直接参考价值。

向量相似度只覆盖表面语义,需要推理式检索路径补全多步关联的记忆层次化图结构让检索具备「慢思考」能力,不依赖更大的模型做长期记忆类LLM应用的团队可以参考这个System 1+2的双路径设计
示例图对替代prompt,Agent筛信息暗藏偏心

也值得关注

05
ViT结构化剪枝的新解耦框架 推理加速把token压缩和权重剪枝分开处理,部署效率提升的同时精度损失更可控。链接
06
CMU开源仓储AGV多智能体路径规划测试平台 机器人首次在真实仓储场景下系统性评估各种MAPF算法的设计选择。链接
07
首个通用约束处理框架适配神经路由求解器 AI for ScienceICLR论文,让神经求解器能高效应对复杂约束条件。链接
08
微服务调试自动化:定位错误源头并生成自然语言解释 代码智能Oxford提出的方案,针对分布式系统中的多源错误定位。链接
09
VLM做推荐和采购决策时有自己的视觉偏好 多模态特定的构图、色调会系统性影响模型的选择倾向。链接
10
文生视频的跨样本多样性问题 视频生成同一prompt生成多条视频时,如何在保证单视频时序一致的前提下提升批次多样性。链接
11
VLM驱动的实验自动化Agent AI for Science用于材料表征中的复杂显微镜操作流程。链接
12
大规模数据集蒸馏的探索-利用优化策略 训练优化在保持性能的同时显著加速蒸馏过程。链接
13
量子启发的分类头让置信度校准更可靠 可解释性通过复数值酉表示替代传统softmax,改善深度网络的不确定性量化。链接

今日观察

今天有两篇论文从不同方向指向了同一个容易被忽略的问题。Agent来源偏好研究发现LLM Agent在检索和综合信息时会偏向特定出版商和平台;Visual Persuasion研究发现VLM在视觉决策中会被特定构图和色调系统性影响。两个发现的共同点在于:模型并没有给出「错误」的答案,而是在筛选信息的过程中施加了自己的隐性偏好——用户拿到的是经过模型品味过滤后的结果,却以为自己看到的是客观中立的信息。

这跟传统的AI bias问题不同。传统bias是模型对某些群体的输出有偏差,可以用公平性指标来检测。而这里的问题是模型在充当信息过滤器时,对信息来源和视觉特征本身有偏差——它不是歧视谁,而是在帮你挑东西时悄悄加入了自己的品味。

对正在部署Agent做信息检索、推荐或采购决策的团队,建议在上线前做一轮筛选偏好审计:用相同内容挂不同来源标签测试文本输出是否一致,用控制变量的产品图测试视觉决策是否稳定。审计的不是回答准不准,而是筛选过程本身有没有系统性倾向。