Agent | AI论文简报

2026年7月13日血统推理最强模型仅对27% 日报
2026年7月11日 VLA记忆入latent，世界模型60fps跑720p 日报
2026年7月10日 RL训到图像生成，Gemma 4开源日报
2026年7月8日数字人分辨率翻倍，延迟守住200ms 日报
2026年7月6日 0.6B追平32B，显存省50倍日报
2026年7月4日自适应解码4.2倍，联合训练快10倍日报
2026年7月3日 35B agent对标1T，异步滞后被高估日报
2026年6月30日弃权规则让agent停手召回翻倍日报
2026年6月29日视频世界模型卡24%，越狱只压几个头日报
2026年6月28日 ViQ让多模态训练提速20-70% 日报
2026年6月26日末层偷改答案，早层解码反更准日报
2026年6月21日榜单分预测不了部署，机械臂自迭代99% 日报
2026年6月20日 7B视频agent反超72B模型日报
2026年6月19日两次循环让SWE-bench从43涨到64 日报
2026年6月15日剪枝小模型捷径只在预算紧时成立日报
2026年6月14日换接口空间推理+11分日报
2026年6月12日一条证据压成1个token，生成省3-10倍日报
2026年6月9日换机械臂不重训，VLM同时看见鸭兔日报
2026年6月7日流式传递让多agent更准，1/6高斯更清晰日报
2026年6月6日 NVIDIA五模态压进一套权重日报
2026年6月5日 20B搜索器外置状态打平前沿日报
2026年6月4日 4B agent几千条轨迹追平闭源CUA 日报
2026年6月2日 MoE安全集中在少数专家、独占批提速42% 日报
2026年5月31日世界模型迈向多人,24FPS实时日报
2026年5月30日 Agent开始学会自己变强，也学会少用工具日报
2026年5月28日扩散模型把解码这道工序也吃了下来日报
2026年5月27日我们一直在用错的尺子量模型的『心里话』日报
2026年5月25日 agent轨迹让30B打平235B 日报
2026年5月22日 $15跑出一篇论文,医疗agent仅28% 日报
2026年5月21日双流MoE统一多模态，换装视频30倍提速日报
2026年5月19日 8%的token决定reasoning差距日报
2026年5月17日奥赛金牌打包成两步配方日报
2026年5月16日可读规则不该学进LLM权重日报
2026年5月15日 δ-mem用8×8矩阵换长上下文日报
2026年5月14日 Flow-OPD把GenEval从63拉到92 日报
2026年5月12日 Soohak让顶级模型只拿到30% 日报
2026年5月11日 Lorem Ipsum救回GRPO难题样本日报
2026年5月9日 10.6k轨迹SFT追平RL流水线日报
2026年5月8日 T²PO稳多轮RL+视频缓存提速6倍日报
2026年5月4日 ViT改用LM目标预训练替代CLIP 日报
2026年5月2日 dLLM跨架构蒸馏到0.6B 日报
2026年5月1日递归MAS省35%token，T2I整张重画日报
2026年4月30日 RL给视频生成补3D一致性日报
2026年4月29日去掉情绪词后probe准确率塌到5% 日报
2026年4月27日完整trace让多agent归因准76% 日报
2026年4月25日压agent改分,4轮就开始作弊日报
2026年4月24日校准critic让推理涨18点日报
2026年4月22日答案摆面前agent也视而不见日报
2026年4月21日 3B拒答追平R1，B矩阵是LoRA瓶颈日报
2026年4月20日 Qwen3.5-Omni扩到几百亿参数日报
2026年4月19日语料编译成目录，日志训LLM替身日报
2026年4月18日腾讯开源3D世界生成、VLM偏科探针日报
2026年4月17日大模型更抗谣言却更易被噪声带跑日报
2026年4月15日 PRM标注成本降两个数量级，dLLM幻觉错法不同日报
2026年4月13日 DMax让扩散LM并行效率提升近3倍日报
2026年4月12日打乱音视频练推理，6B模型超GPT-4o 日报
2026年4月10日 Entropy在骗你，隐式推理止于7步日报
2026年4月9日单GPU训120B·视频评测四成靠猜日报
2026年4月8日视频问答跑到2FPS，RLVR自带噪声过滤日报
2026年4月5日 400万游戏帧练渲染，技能内化胜过检索日报
2026年3月28日蒸馏砍掉模型的犹豫，OOD暴跌40% 日报
2026年3月27日投机执行快3倍，不丢token反更快日报
2026年3月26日扩散OCR解码快3.2倍，单流架构2秒出片日报
2026年3月23日 12B超GPT-4，蒸馏后学生反超教师日报
2026年3月21日 3D仅需0.1%token，视频微调反伤空间理解日报
2026年3月20日 32B工业代码模型首发，战争验证推理真伪日报
2026年3月19日开源搜索Agent逆袭，Agent Skills神话破灭日报
2026年3月18日 70万对论文蒸馏品味，零空间暴露盲区日报
2026年3月15日文档Agent导航≈碰运气，预填充加速1.82× 日报
2026年3月14日编码答案而非问题，embedding涨9% 日报
2026年3月10日 12k样本赢金融SOTA，CUDA优化快35% 日报
2026年3月8日「请简洁」砍半token，准确率反涨16分日报
2026年3月7日 14B视频模型单卡19.5FPS 日报
2026年3月5日 Lottie动画直接生成，DPO自带防遗忘日报
2026年3月4日 9K样本逼近R1，RL提升大半归SFT 日报
2026年3月1日 Latent推理靠的不是推理日报
2026年2月26日 Agent红队11种失败模式，step级路由降本700倍日报
2026年2月25日 token概率直接当reward，零样本达0.95相关性日报
2026年2月23日模型压缩的几何直觉：折叠比剪枝更优日报
2026年2月22日 DiT动态patch快3倍，Mamba减法逼近softmax 日报
2026年2月21日 Agent从80分涨到90分，失败模式没变日报
2026年2月18日二进制token让图像生成快30倍，RL训练也在学会反思日报
2026年2月17日 Web Agent在线RL突破70%，奖励模型换个方向思考就行日报
2026年2月16日医疗AI、科学Agent、机器人VLA：垂直领域正在成为AI的主战场日报
2026年2月15日 RL训练数据不够用？把简单题拼成难题就行日报
2026年2月14日 11B参数跑出frontier级Agent智能，Coding Agent评测该换赛道了日报
2026年2月13日 AI数学研究agent解开真实开放问题，世界模型扎堆涌现日报
2026年2月12日文本扩散模型不再只是概念验证日报
2026年2月11日 Agent跑久了上下文会「腐烂」，但好的上下文管理策略能大幅挽回性能日报
2026年2月10日 LinkedIn把LLM搜索排序做到了上线水平日报
2026年2月9日医疗LLM不该只答题，应该像医生一样主动问诊日报
2026年2月8日用扩散模型做投机解码，推理加速6倍日报
2026年2月7日百度发布万亿参数统一多模态模型ERNIE 5.0 日报
2026年2月6日只保留256个token就能逼近全量注意力性能日报
2026年2月5日 Kimi K2.5开源，Agent Swarm框架让多Agent并行延迟降4.5倍日报
2026年2月3日预训练数据配比不用训练就能搜到最优解日报
2026年2月2日 RLVR训练数据不够用？从互联网文本里无限合成就行日报
2026年2月1日多模态深度研究不再是闭源大模型的专利日报