2026-05-09

谷歌AI Co-Mathematician刷新数学解题纪录

摘要

近日，谷歌旗下DeepMind团队推出的AI系统Co-Mathematician在高难度数学评测FrontierMath Tier 4上表现亮眼，引起学术界和科技媒体广泛关注。

近日，谷歌旗下DeepMind团队推出的AI系统Co-Mathematician在高难度数学评测FrontierMath Tier 4上表现亮眼，引起学术界和科技媒体广泛关注。该系统以47.9%的正确率成功解答23道难题，超越此前由GPT-5.5 Pro保持的39.6%纪录。此举不仅展示了AI在复杂数学研究中的潜力，也标志着人工智能在学术辅助和科研创新领域迈出了重要一步。对于数学家和科研机构而言，这一进展意味着未来有可能借助AI加速攻克长期悬而未决的数学难题。

事件细节方面呈现出几个值得注意的特点。首先，Co-Mathematician并未依赖新一代底座，而是使用了Gemini 3.1 Pro，通过多层架构优化了任务处理效率。其次，团队将复杂的研究任务拆分为多条工作流，并分配给不同的子agent执行，包括文献检索、代码编写和逻辑推理，这种协同方式显著提升了整体解题能力。第三，系统不仅刷新了准确率记录，还成功解答了三道此前所有AI模型都未能解决的难题，显示出其在突破传统技术瓶颈方面的潜力。此外，目前AI Co-Mathematician仍处于内测阶段，仅向少数数学家开放，显示DeepMind对系统可靠性和成果验证的严格把控。

从原因分析角度来看，这一成绩背后反映了几个行业趋势。高性能AI在科研领域的应用正在逐渐从理论探索走向实际问题解决，尤其是在复杂数学、物理等基础科学领域，AI不仅能提供计算能力，更能通过多agent协作模式优化研究流程。一个明显变化是，AI系统正在从单一模型向多模块协作方向发展，通过任务拆分和并行处理实现效率与准确率的双重提升。行业观察人士认为，这种方法不仅降低了单个模型的局限性，还为未来科研AI的结构设计提供了参考模板。

进一步看，Co-Mathematician的突破与整个AI辅助科研的发展趋势密切相关。近年来，包括OpenAI、Anthropic在内的多家机构在科学计算、数学证明等领域不断取得进展，但大多数模型仍局限于中等难度问题。值得注意的是，DeepMind的这一实践显示，系统化任务分解和多agent协作能够有效攻克更高难度的科研问题，为AI在基础科学研究中的深度应用提供了新思路。此外，少量数学家参与内测的模式也折射出科研AI在应用初期对专家指导和实验验证的高度依赖，这有助于确保成果的学术价值和可信度。

总结来看，AI Co-Mathematician在FrontierMath Tier 4上的突破不仅刷新了数学解题记录，更展示了AI辅助科研的巨大潜力。这一事件不仅为AI在学术领域的应用提供了可参考的路径，也预示着未来科研工具将更多依赖多agent协作和任务分解策略。可以预见，随着系统逐步开放和优化，人工智能在高难度数学研究和复杂科学问题攻关中，可能成为不可或缺的合作伙伴，为科研创新带来持续动力。