- 2026年3月1日 Latent推理靠的不是推理 日报
- 2026年2月28日 三模态从零训练,Agent RL稳定性破局 日报
- 2026年2月27日 TTT就是线性注意力,Terminal Agent数据配方开源 日报
- 2026年2月25日 token概率直接当reward,零样本达0.95相关性 日报
- 2026年2月24日 74%的agent协调可能是白费的 日报
- 2026年2月23日 模型压缩的几何直觉:折叠比剪枝更优 日报
- 2026年2月18日 二进制token让图像生成快30倍,RL训练也在学会反思 日报
- 2026年2月15日 RL训练数据不够用?把简单题拼成难题就行 日报
- 2026年2月13日 AI数学研究agent解开真实开放问题,世界模型扎堆涌现 日报
- 2026年2月7日 百度发布万亿参数统一多模态模型ERNIE 5.0 日报
- 2026年2月6日 只保留256个token就能逼近全量注意力性能 日报
- 2026年2月5日 Kimi K2.5开源,Agent Swarm框架让多Agent并行延迟降4.5倍 日报
- 2026年2月4日 SFT越强,RL反而越弱? 日报
- 2026年2月3日 预训练数据配比不用训练就能搜到最优解 日报