推理 | AI论文简报

2026年7月5日记忆让agent谄媚，视觉推理93.2% 日报
2026年7月1日 1.6小时长任务agent只做完两成日报
2026年6月30日弃权规则让agent停手召回翻倍日报
2026年6月22日有状态embedding让260M压过8B 日报
2026年6月14日换接口空间推理+11分日报
2026年6月11日 V4把KV压到13.5%，视频记忆快10倍日报
2026年6月8日 dots.tts首包54ms，SWE自进化破50% 日报
2026年6月6日 NVIDIA五模态压进一套权重日报
2026年6月4日 4B agent几千条轨迹追平闭源CUA 日报
2026年5月30日 Agent开始学会自己变强，也学会少用工具日报
2026年5月24日 DeltaNet拆双门,Maestro压GPT-5 日报
2026年5月17日奥赛金牌打包成两步配方日报
2026年5月13日几何冲突让持续微调可预判日报
2026年5月4日 ViT改用LM目标预训练替代CLIP 日报
2026年5月2日 dLLM跨架构蒸馏到0.6B 日报
2026年4月30日 RL给视频生成补3D一致性日报
2026年4月27日完整trace让多agent归因准76% 日报
2026年4月25日压agent改分,4轮就开始作弊日报
2026年4月20日 Qwen3.5-Omni扩到几百亿参数日报
2026年4月19日语料编译成目录，日志训LLM替身日报
2026年4月14日 SFT收敛≠全学会，注意力劫持破防94% 日报
2026年4月12日打乱音视频练推理，6B模型超GPT-4o 日报
2026年4月5日 400万游戏帧练渲染，技能内化胜过检索日报
2026年3月25日 PDE替掉attention误差低2倍，局部RL省3/4算力日报
2026年3月21日 3D仅需0.1%token，视频微调反伤空间理解日报
2026年3月19日开源搜索Agent逆袭，Agent Skills神话破灭日报
2026年3月18日 70万对论文蒸馏品味，零空间暴露盲区日报
2026年3月14日编码答案而非问题，embedding涨9% 日报
2026年3月10日 12k样本赢金融SOTA，CUDA优化快35% 日报
2026年3月7日 14B视频模型单卡19.5FPS 日报
2026年3月6日 code agent跨仓库不到45% 日报
2026年3月5日 Lottie动画直接生成，DPO自带防遗忘日报
2026年3月4日 9K样本逼近R1，RL提升大半归SFT 日报
2026年2月24日 74%的agent协调可能是白费的日报
2026年2月19日频谱衰减让W4A4量化回升7%精度日报
2026年2月18日二进制token让图像生成快30倍，RL训练也在学会反思日报
2026年2月17日 Web Agent在线RL突破70%，奖励模型换个方向思考就行日报
2026年2月16日医疗AI、科学Agent、机器人VLA：垂直领域正在成为AI的主战场日报
2026年2月15日 RL训练数据不够用？把简单题拼成难题就行日报
2026年2月14日 11B参数跑出frontier级Agent智能，Coding Agent评测该换赛道了日报
2026年2月13日 AI数学研究agent解开真实开放问题，世界模型扎堆涌现日报
2026年2月12日文本扩散模型不再只是概念验证日报
2026年2月9日医疗LLM不该只答题，应该像医生一样主动问诊日报
2026年2月5日 Kimi K2.5开源，Agent Swarm框架让多Agent并行延迟降4.5倍日报
2026年2月3日预训练数据配比不用训练就能搜到最优解日报
2026年2月2日 RLVR训练数据不够用？从互联网文本里无限合成就行日报