刚刚,Code Arena最新放榜,国内AI闯入全球编程前二
转自新智元就在今天Code Arena最新榜单出炉Qwen3.7-Max以1541分闯入全球前四一举超越了GPT-5.5、Gemini 3.5 Flash等一众顶尖模型。排在它前面的只剩Claude Opus 4.7和Opus 4.6。换句话说在全球编程模型的竞技场上阿里是唯一杀进这张牌桌的中国厂商仅次于Anthropic位列第二。Qwen3.7-Max闯入全球前五唯一非Claude模型其实在Code Arena放榜之前Qwen3.7-Max在海外开发者圈子里已经杀出了名声。Atomic Chat做了一场硬碰硬的对比让Opus 4.7、GPT-5.5和Qwen3.7-Max同台竞技任务是写一个能自我训练的俄罗斯方块AI。结果Qwen3.7-Max不仅只用$1.32的token成本就把Opus 4.7和GPT-5.5都超越了而且性能还提升了56%。另一位海外开发者选择让Qwen3.7-Max构建了一个宇宙的3D模型效果足以用震撼形容。在「3D像素风微缩宝塔模型」的生成任务中Qwen3.7-Max的输出速度和质量同样全面胜出。左右滑动查看开发者Paul Couvert更是盛赞Qwen3.7-Max接入Hermes Agent和OpenCode之后基本可以替掉GPT-5.5和Opus 4.7。编程太能打了不过跑分再高不如真刀真枪拉出来练练。我们给Qwen3.7-Max安排了一场硬核的「赛车游戏」挑战。一段详细的Prompt丢进去不一会儿功夫Qwen3.7-Max直出一个可玩的HTML的文件。第一版有个小bugA/D转向键左右搞反了。但经过第二轮简单对话微调一个体验完整的3D赛车游戏就跑了起来。打开的瞬间说实话有点被惊到了。4车同台3圈环形赛道竞速赛道上散落着100多枚金币碰到障碍物会减速、失控。赛后成绩面板排名、用时、金币数、最快单圈一项不缺。但真正让人意外的是两个只有Qwen3.7-Max做到的细节。一个是开始界面。四个模型横向测完只有它给游戏做了一个正经的开始页面点「Start」才进入比赛。其他三家全是打开即跑连个标题画面都没有。另一个是音效。Prompt最后附了一条要求加上发动机轰鸣和吃金币的音效。四个模型里也只有它把这个bonus吃进去了引擎声和金币叮咚都安排上了。再看看其他选手的表现。Gemini 3.5 Flash的画面明显单薄了一档缺少那种呼之欲出的立体感。UI布局也有问题仪表盘信息分散在屏幕四角视觉焦点一盘散沙。相比之下Qwen3.7-Max的处理方式是把关键指标集中到画面中央更符合玩家视线的自然落点。Claude Opus 4.6的效果有点让人一言难尽了。不仅赛道上金币少得可怜而且3辆AI赛车几乎同步行驶毫无随机性像复制粘贴出来的。最后是GPT-5.5。可以看到画面质感确实比前两家强了不少操作起来也更流畅。但不知道为什么金币被做成了黄色的「甜甜圈」……造型倒是小事。关键是Gemini、Claude、ChatGPT三家都修了好几轮bug才跑通全部功能。只有Qwen3.7-Max首轮生成就基本可玩。跑分接近实测不虚价格只有几分之一。剩下的结论等开发者用脚投票就行了。Agent时代的「基座」模型Qwen3.7-Max之所以能在最卷的编程擂台上打出如此水平答案就藏在它的产品定位里。几天前阿里发布Qwen3.7-Max的时候给了它一个非常特殊的标签Agent基座模型。它生来就是为长时间自主执行任务设计的模型。内测数据显示在一次自主编程任务中Qwen3.7-Max连续运行35个小时执行1158次工具调用。最终生成的代码相较于Triton参考实现达到了惊人的10倍几何平均加速。更令人震撼的是它的「持久战」能力——在推演进行到第30个小时之后模型依然保持敏锐持续挖掘出新的优化空间。全程零上下文退化、零指令漂移、零死循环不得不说这件事的难点不在1000次工具调用本身。MCP协议铺开之后调1000次工具不算稀奇。难点在于35小时的连贯推理。绝大多数模型跑长任务时会崩盘要么上下文越积越乱前半段定的目标到后面忘得干干净净要么进入死循环反复尝试同一个失败的方案。Qwen3.7-Max把「持续做对事」这件事做出来了。核心技术揭秘Qwen3.7-Max这波编程跃升我们理解核心可能与两个训练方法的升级有关。第一个是环境扩展。Qwen3.7-Max在做编程训练时每个任务会被拆成三个独立维度任务本身、执行框架、验证方式三者自由组合。同一道题有时候在Claude Code的框架里做有时候在OpenClaw里做有时候换一种验证方式。效果就像一个实习生被轮岗到了所有项目组。它被迫学会的是解决问题的通用策略不是「在某个特定框架里怎么取巧」。这解释了一个反直觉的现象Qwen3.7-Max在Claude Code、OpenClaw、Qwen Code这几个框架里的表现都很稳没有出现「在自家框架里很强、换一个就拉胯」的情况。第二个升级是长程自主执行。在训练中团队引入了「动态累积生存博弈」框架。也就是让模型在持续变化的模拟环境中做超过一千步的连续决策自己建立假设、根据反馈调整策略而且不能因为跑太久就「上下文腐化」。这里有一个直观的数据YC-Bench模拟创业公司经营一整年Qwen3.7-Max做到了208万美元营收是上一代105万的两倍。更关键的是它展现出了策略进化中期遇到危机能自主调整方向识别并拉黑恶意客户最终收敛到稳定的执行循环。这就是35小时kernel优化案例的底层支撑也是为什么在Kernel Bench L3上Qwen3.7-Max能让96%的场景跑出加速效果。而编程还只是第一个战场。这套长程推理加工具调用的底子指向的是一个更大的野心——通用Agent基座。编程决赛多了一个搅局者Code Arena上线至今考的从来都是硬活多步推理、工具编排、完整项目交付全是Agent级的真刀真枪。今天Qwen3.7-Max凭借着1541分的成绩楔进了第四的位置卡在Opus 4.6 Thinking和Opus 4.6之间。在这条Claude统治了大半年的赛道上它给出了自己的回答中国模型不只是追赶者也可以是定义者。全球编程模型的竞赛已经不再是硅谷的独角戏了。往期热文:没有团队没有融资他一个人靠开发网站一年赚千万AI编程开发小程序有人已经日入1千赚了10万块了30分钟开发了“全能手电筒补光”小程序目前我们星球是有全套的AI编程零基础开发微信小程序的教程可以学1整年我们会教你全套的从零开始如何用AI编程开发小程序副业变现有兴趣的可以看看。我自己也在全力深耕这个赛道欢迎志同道合的小伙伴加入我们