Agent跑久了上下文会「腐烂」，但好的上下文管理策略能大幅挽回性能

今日概览

Agent跑久了上下文会「腐烂」，但好的上下文管理策略能大幅挽回性能。LOCA-bench首次系统测试了长上下文Agent在动态增长环境下的退化问题
强制让LLM「思考」再行动反而更差？思考让Agent变「内向」了——回复变短、信息不愿意给用户，导致下游任务连环崩
视频理解模型吃token太猛，FlashVID只保留10%的视觉token就保住99%的性能，还能在同样算力下把输入帧数提升10倍
攻击LLM推理延迟的正确姿势：别盯着模型层，盯着serving系统的调度器。Fill and Squeeze策略让首token延迟最高暴涨280倍

重点关注

01 评测 Agent跑久了就犯糊涂，到底是模型不行还是上下文的锅？

做过Agent的人都知道，任务一复杂、步骤一多，模型表现就开始飘。但之前的长上下文benchmark基本只测「从长文中找信息」这种单步场景，跟Agent的真实工作方式差得远。LOCA-bench填上了这个空白：它能自动、可控地让环境状态不断膨胀，迫使Agent在动态增长的上下文中持续执行任务——而且任务语义不变，只有上下文在涨。测下来，Agent性能确实随上下文增长明显退化（这不意外），但有意思的是，先进的上下文管理策略能实质性地拉回成功率。换句话说，「context rot」不是模型能力的天花板，而是工程可以解决的问题。做Agent系统的团队，这个benchmark值得跑一遍，看看你的上下文策略到底在什么量级开始崩。

首个专门测Agent长上下文退化的可控benchmark，环境状态可以无限膨胀上下文管理策略比模型本身更影响长程表现已开源，适合评估自己的Agent框架

原文：LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

02 Agent 让模型「想清楚再说」，为什么反而把事情搞砸了？

推理（thinking）被当作LLM能力升级的银弹——先想再答，效果更好。但这篇论文做了7个模型、3个benchmark的系统实验，发现了一个反直觉的结论：在需要和用户互动的Agent场景里，强制开启思考模式反而导致性能下降。原因很有意思：思考让模型变「内向」了——回复变短，主动披露的信息变少，Agent和用户之间的信息交换被削弱，下游任务因此失败。更实用的发现是，只要在prompt里显式要求模型主动披露信息，就能跨模型稳定提升表现。做对话Agent的团队注意了：推理能力和信息透明度可能是两个需要分别优化的轴。

7个模型一致表现——强制思考让Agent回复变短、信息披露减少根因是推理模式抑制了Agent-用户的信息交换显式prompt要求信息披露是低成本的改善方案

原文：Thinking Makes LLM Agents Introverted: How Mandatory Thinking Can Backfire in User-Engaged Agents

03 推理加速视频理解模型吞token太凶，能砍掉90%还不掉点吗？

视频大模型理解能力越来越强，但视频帧一多，视觉token数量爆炸式增长，推理成本是个大问题。现有的加速方法通常分别压缩空间和时间维度的冗余，忽略了两者之间的关联——同一个物体在不同帧里位置、尺度都在变，固定的空间压缩抓不住这种动态变化。FlashVID（ICLR 2026 Oral）的做法是先用注意力和多样性指标选出最有代表性的token，再用树状结构在时空维度上联合合并冗余token。实测下来，只留10%的视觉token就保住了LLaVA-OneVision 99.1%的性能。更实用的是，省下来的算力可以直接用来喂更多帧——给Qwen2.5-VL输入帧数提升10倍后，同样算力下性能反而相对提升8.6%。做视频理解应用的团队，这是一个即插即用的免训练方案。

时空联合token合并比分别压缩效果更好10%的token保留率+99%性能保持，数字本身就是说服力省下的算力可以换成更多输入帧，ROI很高

原文：FlashVID: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging

04 安全对齐攻击LLM推理延迟，为什么盯着模型不如盯着调度器？

LLM推理成本高，延迟攻击是个真实威胁。之前的研究主要在算法层面做文章——构造特殊输入让模型产生最长输出。但这篇论文报告了一个反直觉的发现：现代serving系统（如vLLM）的continuous batching机制天然隔离了这种攻击的影响，算法层面的延迟攻击其实不太管用。于是作者换了个角度，把目标从模型转向serving系统的调度器。Fill and Squeeze策略分两步：先用请求填满全局KV cache触发Head-of-Line阻塞，再迫使系统反复做抢占式调度。效果惊人——首token延迟暴涨20-280倍，每token生成时间增加1.5-4倍，而攻击成本比现有方法低30-40%。跑LLM serving的团队，这篇论文是个很好的防御参考，需要关注KV cache的资源隔离和调度抢占的安全策略。

continuous batching能防算法层延迟攻击，但调度器层面有新的攻击面攻击成本比之前的方法低30-40%，威胁更现实对LLM serving的安全加固有直接指导意义

原文：Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model

也值得关注

只在5秒视频上训练，推理时却能生成30分钟长视频 视频生成Rolling Sink通过分析自回归cache维护策略，在Self Forcing基础上实现训练时长到测试时长的无训练跨越，保持主体一致和运动连贯。链接

用博弈论给LLM每一层「定价」，pruning不再拍脑袋 推理加速把层剪枝建模为合作博弈，用轻量代理网络估算Shapley值来量化层间依赖关系，ICLR 2026。链接

开源歌声合成追上工业水准 多模态SoulX-Singer在4.2万小时数据上训练，支持中英粤三语的zero-shot歌声合成，重点解决了工业部署的鲁棒性问题。链接

把embedding从欧氏空间搬到双曲空间，RAG检索相关性提升29% 检索HypRAG利用双曲空间天然适合层级结构的特性编码文档粒度，用更小的模型超过了当前最好的检索器。链接

让Agent自己学会设计记忆系统 AgentALMA用meta-learning让Agent在可执行代码空间中搜索最优的记忆schema、检索和更新机制，4个决策任务上超越人工设计的记忆方案。链接

LLM Agent之间靠「八卦」建立信任 AgentALIGN框架让自利Agent通过分层语调的gossip评估彼此可信度，推理能力更强的模型合作水平更高，chat模型则倾向于「过度合作」。链接

个性化LLM的用户画像太长？注意力反馈压缩50倍不掉点 推理加速Attn-GS利用LLM自身的注意力模式识别关键个性化信号，引导压缩模型生成精简上下文，token用量降至1/50。链接

Deep search agent光看最终答案训练不够，步级评估让准确率提升10% AgentSRR-Judge为搜索Agent的每步推理和动作提供细粒度评分，用这些标注做rejection sampling微调后效果超越DeepSeek-V3.1。链接

今日观察

今天Agent方向的论文密度很高，但有意思的是指向了一个共同主题：Agent的瓶颈正在从「模型能力」转向「系统设计」。LOCA-bench发现上下文管理策略比模型本身更关键，Thinking Agent发现推理能力反而损害交互质量，ALMA发现记忆系统的架构设计才是持续学习的核心。做Agent的团队，现阶段值得把更多精力放在框架层面的工程优化上，而不只是等更强的模型。