First Proof项目二批评测结果出炉：7道题AI解答达发表标准，各系统表现与成本差异大

张

张建站

2026/6/13 20:10:55

10分钟阅读

First Proof项目二批评测结果出炉：7道题AI解答达发表标准，各系统表现与成本差异大

【导语陶哲轩主导的First Proof项目第二批评测结果公布此次评测提高标准并引入双盲同行评议机制4套AI系统参与答题部分题目AI给出新颖解法各系统在解题能力、成本和耗时上差异明显后续8 - 10月将开展第三批评测。】评测升级引入双盲同行评议本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则相比第一次评测进一步提高标准。引入双盲同行评议机制由项目组统一操作30位数学专家像期刊审稿一样盲审打分评审只能看到证明稿件不知作者是AI还是人类证明按人类数学论文标准分为四档。AI系统表现各有优劣参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼在P5随机偏微分方程题中跳出人类常规思路推导出更强结论在第三题离散概率、第九题代数组合中部分AI也给出原创论证。面对有成熟文献参考的题目AI优势明显。但各系统也存在不足OpenAI原生ChatGPT 5.5 Pro原创能力偏弱普林斯顿团队系统投入产出比低苏黎世联邦理工团队系统成本高陶哲轩所在UCLA团队系统虽稳定性尚可但未实现能力突破。成本与耗时差距悬殊评测统计了四套AI的调用成本与耗时云服务器总成本不足35美元可忽略不计但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高10道题总花费117美元运行5.8小时耗时最短普林斯顿团队系统花费1014美元、运行7.8小时苏黎世联邦理工团队系统总费用达3186美元运行22.9小时UCLA团队系统成本最高共计4799美元运行23.1小时。后续安排第三批评测待启陶哲轩认为本轮整体表现未达预期现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测评测规则沿用第二批次标准。编辑观点First Proof项目评测为AI数学能力提供了严格检验虽本次未达预期但各系统亮点也展现了AI潜力后续评测值得关注其改进成果。

在Apple Silicon Mac上运行Vivado：跨架构FPGA开发的终极解决方案

在Apple Silicon Mac上运行Vivado：跨架构FPGA开发的终极解决方案【免费下载链接】vivado-on-silicon-mac Installs Vivado on M1/M2/M3 macs 项目地址: https://gitcode.com/gh_mirrors/vi/vivado-on-silicon-mac 在Apple Silicon Mac上运行Xilinx Vivado设…...

2026/6/13 20:07:58 阅读更多 →

Obsidian Importer完整指南：3步轻松迁移所有笔记到Markdown

Obsidian Importer完整指南：3步轻松迁移所有笔记到Markdown 【免费下载链接】obsidian-importer Convert your data to Markdown files you can use in Obsidian. Works with Apple Notes, OneNote, Evernote, Notion, Google Keep, and many other formats. 项目…...

2026/6/13 20:03:53 阅读更多 →

如何彻底解决Windows图形驱动兼容性问题：Mesa3D终极配置指南

如何彻底解决Windows图形驱动兼容性问题：Mesa3D终极配置指南【免费下载链接】mesa-dist-win Pre-built Mesa3D drivers for Windows 项目地址: https://gitcode.com/gh_mirrors/me/mesa-dist-win 你是否曾在Windows上运行经典游戏或专业图形软件时遭遇OpenG…...

2026/6/13 20:00:03 阅读更多 →

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 想要在数万张照片中快速找…...

2026/6/12 22:06:22 阅读更多 →

ai辅助开发：借助快马平台智能生成win11开始菜单自定义设置工具

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用ai辅助生成一个关于windows 11开始菜单位置设置的应用代码，应用需要实现以下智能交互功能：首先用户可以通过自然语言输入设置需求，例如请…...

2026/6/13 8:40:26 阅读更多 →

【Android】PhotoArt--一款融入了ai技术的照片画质增强神器

【Android】PhotoArt-AI一键擦除衣服-变性感美女链接：https://pan.xunlei.com/s/VOuPm57W6vVhz5Dzn0seQRVaA1?pwdkjec# 通过该软件您可以在线制作获取各种风格的动漫图片，无论是头像还是壁纸都可以轻松获取。...

2026/6/13 4:12:50 阅读更多 →

Android权限管理深度解析：XXPermissions框架完整实战指南

Android权限管理深度解析：XXPermissions框架完整实战指南【免费下载链接】XXPermissions Android Permissions Framework, Adapt to Android 16 项目地址: https://gitcode.com/GitHub_Trending/xx/XXPermissions 在Android开发中，权限管理一直是…...

2026/6/13 15:41:32 阅读更多 →