- 2026年2月28日 三模态从零训练,Agent RL稳定性破局 日报
- 2026年2月18日 二进制token让图像生成快30倍,RL训练也在学会反思 日报
- 2026年2月16日 医疗AI、科学Agent、机器人VLA:垂直领域正在成为AI的主战场 日报
- 2026年2月15日 RL训练数据不够用?把简单题拼成难题就行 日报
- 2026年2月14日 11B参数跑出frontier级Agent智能,Coding Agent评测该换赛道了 日报
- 2026年2月12日 文本扩散模型不再只是概念验证 日报
- 2026年2月9日 医疗LLM不该只答题,应该像医生一样主动问诊 日报
- 2026年2月4日 SFT越强,RL反而越弱? 日报
- 2026年2月2日 RLVR训练数据不够用?从互联网文本里无限合成就行 日报
- 2026年2月1日 多模态深度研究不再是闭源大模型的专利 日报