First Proof项目二批评测结果出炉:7道题AI解答达发表标准,各系统表现与成本差异大
【导语陶哲轩主导的First Proof项目第二批评测结果公布此次评测提高标准并引入双盲同行评议机制4套AI系统参与答题部分题目AI给出新颖解法各系统在解题能力、成本和耗时上差异明显后续8 - 10月将开展第三批评测。】评测升级引入双盲同行评议本次评测延续选取10道前沿研究级数学新题让AI系统作答的核心规则相比第一次评测进一步提高标准。引入双盲同行评议机制由项目组统一操作30位数学专家像期刊审稿一样盲审打分评审只能看到证明稿件不知作者是AI还是人类证明按人类数学论文标准分为四档。AI系统表现各有优劣参与评测的4套AI系统各有特点。苏黎世联邦理工的System A表现亮眼在P5随机偏微分方程题中跳出人类常规思路推导出更强结论在第三题离散概率、第九题代数组合中部分AI也给出原创论证。面对有成熟文献参考的题目AI优势明显。但各系统也存在不足OpenAI原生ChatGPT 5.5 Pro原创能力偏弱普林斯顿团队系统投入产出比低苏黎世联邦理工团队系统成本高陶哲轩所在UCLA团队系统虽稳定性尚可但未实现能力突破。成本与耗时差距悬殊评测统计了四套AI的调用成本与耗时云服务器总成本不足35美元可忽略不计但模型调用费用差距大。OpenAI原生ChatGPT 5.5 Pro性价比最高10道题总花费117美元运行5.8小时耗时最短普林斯顿团队系统花费1014美元、运行7.8小时苏黎世联邦理工团队系统总费用达3186美元运行22.9小时UCLA团队系统成本最高共计4799美元运行23.1小时。后续安排第三批评测待启陶哲轩认为本轮整体表现未达预期现存问题将作为后续优化方向。后续8 - 10月将开展First Proof项目第三批正式评测评测规则沿用第二批次标准。编辑观点First Proof项目评测为AI数学能力提供了严格检验虽本次未达预期但各系统亮点也展现了AI潜力后续评测值得关注其改进成果。