AI数学研究agent解开真实开放问题，世界模型扎堆涌现

今日概览

AI第一次独立解开数学界的开放问题，Google DeepMind的Aletheia agent在Erdős猜想数据库中自主解决了4道未解题
GUI世界模型不再用像素硬猜。Code2World把界面预测变成代码生成问题，8B模型媲美GPT-5
从视频里直接学控制策略，VideoWorld 2在真实手工任务上成功率提升70%，机器人操作同样有效
训练免费的推理框架，Chain of Mindset让模型在不同推理步骤自动切换「思维模式」，比最强baseline高近5%

重点关注

01 AI for Science AI不只是做数学题了，它开始做数学研究

IMO金牌级的数学能力已经不新鲜，但从「解竞赛题」到「做真正的研究」是另一回事——后者需要检索大量文献、构建长程证明、在未知空间探索。Google DeepMind的Aletheia是一个数学研究agent，基于Gemini Deep Think的增强版本，核心能力是「生成-验证-修正」的端到端循环加上密集的工具调用。最硬的成果是三个：一篇完全由AI独立完成的算术几何研究论文（计算某类结构常数），一篇人机协作证明粒子系统边界的论文，以及对Erdős猜想数据库中700道开放问题的半自主评估——其中4道开放问题被AI自主解决。团队还提出了量化「AI辅助数学成果的自主性和新颖性」的标准框架，这本身就说明他们认为这类成果会越来越多。对行业的信号很明确：AI agent的能力边界正在从「解已知问题」推向「探索未知问题」。

竞赛级推理到研究级推理的跨越靠的是工具使用+长程验证循环4道真实开放数学问题被AI独立解决，不是benchmark而是真实学术成果提出自主性/新颖性分级标准，说明这类成果将变得常态化

原文：Towards Autonomous Mathematics Research

02 Agent GUI Agent要预判下一步，像素级预测走不通

GUI Agent要做到好用，得能「预判」操作结果——点这个按钮界面会变成什么样。现有的方法要么用文本描述下一步（精度不够），要么用像素生成（结构不可控）。Code2World换了个思路：把「预测下一个界面状态」变成「生成能渲染出那个界面的HTML代码」。团队先用视觉反馈修正机制把8万多组GUI轨迹翻译成高保真HTML训练数据，再用渲染感知的强化学习（把渲染结果当reward信号）来训练模型。结果8B规模的Code2World在界面预测上媲美GPT-5和Gemini-3-Pro-Image，更实用的是它能直接提升下游导航任务：给Gemini-2.5-Flash接上Code2World做预判，AndroidWorld导航成功率提升9.5%。代码已开源。

界面预测从像素生成转向代码生成，结构可控且保真度高渲染结果直接当RL的reward信号，训练闭环设计巧妙8B模型就能用，且开源可集成

原文：Code2World: A GUI World Model via Renderable Code Generation

03 机器人从YouTube视频里学到的操作知识，能迁移到机器人上吗？

让AI通过看视频学会做事，听起来很美但实际很难：视频里的「动作」是隐含的，而且不同场景的视觉差异巨大。VideoWorld 2的核心设计是把「动作动态」和「视觉外观」解耦——用预训练的视频扩散模型负责外观建模，让一个专门的潜在动态模型（dLDM）只学和任务相关的紧凑动作编码。这些编码再用自回归方式建模策略和长程规划。在真实的手工制作任务上（之前的视频生成和潜在动态模型都搞不定的场景），任务成功率提升最高达70%。更重要的是在机器人领域的迁移：从Open-X数据集学到的操作知识，能显著提升CALVIN机器人操作任务的表现。代码和模型都会开源。

动态与外观解耦是从无标注视频学控制的关键设计真实手工任务成功率70%提升，不是简单的模拟环境测试跨域迁移到机器人操作验证了方法的通用性

原文：VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

04 推理推理的每一步需要不同的「思维模式」，但现有方法一刀切

人解决复杂问题时会自然切换思维方式——空间想象、发散联想、逻辑收敛、算法执行，不同步骤用不同脑区。但现有的LLM推理方法（包括各种CoT变体）在所有步骤上用的是同一种「心智模式」。Chain of Mindset（CoM）提出了一个无需训练的agentic框架，把推理过程拆成4种异质的认知模式（空间、收敛、发散、算法），由一个Meta-Agent根据推理状态动态选择当前最合适的模式，并用双向上下文门控制模块间的信息流。在数学、代码、科学问答、空间推理6个benchmark上，CoM在Qwen3-VL-32B上整体准确率超最强baseline 4.96%，在Gemini-2.0-Flash上超4.72%，同时保持推理效率。不需要额外训练，直接套用。

「不同推理步骤需要不同思维模式」的直觉被量化验证了训练免费的agentic框架，即插即用跨6个benchmark的稳定提升说明这不是单一任务的trick

原文：Chain of Mindset: Reasoning with Adaptive Cognitive Modes

也值得关注

合成环境训练出的Agent居然比真实环境训练的泛化更好 AgentSnowflake的Agent World Model自动生成1000个日常场景环境（平均35个工具），纯合成训练在三个benchmark上实现强OOD泛化。链接

开源VLM第一次在物理奥赛拿到12块金牌 AI for ScienceP1-VL-235B用课程式RL+agentic推理增强，在HiPhO上全球排名第二仅次于Gemini-3-Pro，STEM benchmark上大幅领先基模。链接

画两笔就能生成绑定好骨骼的3D角色 图像生成Stroke3D从2D笔触+文本生成带骨骼的3D模型，ICLR 2026接收，首个支持笔触条件的rigged mesh生成框架。链接

视频世界模型的动作空间终于能跨场景迁移了 机器人Olaf-World用序列级控制效果对齐把潜在动作锚定到自监督视频特征差分上，解决了动作语义跨上下文不一致的老问题。链接

VLA预训练总学歪？问题出在信息泄露 机器人VLA-JEPA用JEPA式预训练杜绝未来帧信息泄露，在潜在空间而非像素空间做预测，多个机器人操作任务上泛化性和鲁棒性均优于现有方法。链接

文生图微调终于有了大规模高质量开源数据集 图像生成Fine-T2I包含600万对文本-图像对，覆盖10种任务组合、32个提示类别、11种视觉风格，95%以上候选被过滤掉，开放许可。链接

Shampoo比Muon好在哪？和Adam比Signum的道理一样 训练优化新分析表明Shampoo的优势可分解为对Muon更新的自适应调制，本质上是谱下降对随机性的适配。链接

MoE模型60%压缩率下困惑度降8+ 推理加速RFID-MoE利用专家路由频率和信息密度的异质性做自适应SVD压缩，Qwen3-30B压缩60%后HellaSwag准确率仍提升约8%。链接

「人类控制」这四个字，不同社区理解完全不同 安全对齐对比分析两个Reddit社区发现，部署方关心执行护栏和恢复机制，交互方关心身份合法性和问责，同一个概念的操作含义高度分化。链接

今日观察

今天最引人注目的趋势是世界模型的集中涌现——Code2World做GUI状态预测，VideoWorld 2做视频动态建模，Olaf-World做跨场景动作迁移，Agent World Model做合成环境生成。方法各异，但指向同一个命题：Agent要在真实世界中好用，必须有一个「内心模拟器」来预判行为后果。做Agent产品的团队，值得认真跟踪世界模型方向的最新进展，它正在从学术概念变成Agent能力的核心基础设施。