大模型推理能力的边界:Agent 到底能不能做复杂的逻辑数学题?引言:被夸大的“通用智能”与被忽视的“数字枷锁”痛点引入:从一道被全网吹爆又瞬间打脸的IMO题说起2024年5月,OpenAI官方博客悄然发布了一篇名为《Solving Olympiad Mathematics with Code Reasoning and Self-Refine》的文章,配图是GPT-4o Code Interpreter(当时已更名Advanced Data Analysis Beta)解出的第64届IMO预选题第6题的完整过程——这道题是代数数论与组合数学的“跨界杀手”,当年IMO中国国家队预选集训中通过率不足10%。文章一经传播,国内某顶流科技博主直接喊出“GPT-4o已经具备IMO金牌选手的水平,通用人工智能AGI的数学模块已完全打通”,甚至连几位非数学领域的院士都转发了相关内容。但仅仅三天后,反转就来了:知乎数学话题下的“清北复交数学系学生联合测试”结果曝光——他们用GPT-4o、Claude 3 Opus、Gemini Advanced这三款当时最顶级的大模型Agent(搭配各自的代码分析/搜索插件)测试了2020-2024年50道IMO正式赛题目,结果只有2道初等几何辅助线类题目和3道简单代数不等式放缩类题目的完整过程得分率超过70%,没有一道代数数论、组合极值、数论数列递推类题目完全做对,甚至连GPT-4o官方博客发布的那道预选题第6题,联合测试组都找到了两处逻辑漏洞:一处是在证明“模p下多项式不可约的充要条件转换”时直接跳过了关键的“二次剩余非退化矩阵行列式不为零”的严谨推导,另一处是在“构造特殊素数p序列”时默认了素数定理的渐进误差小于给定的ε,但没有说明为何可以在离散素数空间中找到这样的p,最后补出的代码也只是生成了有限个“看起来符合要求”的p,无法证明其无限性——而这两处恰好是这道预选题的核心得分点,占总分的60%以上。