Smoke日报:GPT-5.5 92.58分登顶 材料约束19分差距决定胜负
#GPT-5.5 #材料约束 #代码执行满分 #Smoke评测 #模型排名Smoke今日凌晨数据一出最直接的结论已经摆在眼前代码执行不再是分水岭材料约束成了真正的战场。满分执行掩盖下的真实差距前九名模型代码执行全部拿到100分这意味着在10道快测题里模型基本都能完成可运行的代码。真正决定排名的是材料约束这一项。GPT-5.5拿到83.5分文心一言4.5只有64.3分中间差了19.2分。0.45的权重放大后直接造成主榜36分以上的总分差距。这种格局不是偶然。过去半年主流模型在代码能力上快速收敛执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。前五名几乎打成一团GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二靠的是82.3分的约束成绩证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低但整体仍稳居第三显示其在工程判断侧榜AI辅助评估上的积累仍在发挥作用。反观GPT-o3和文心一言4.5执行分直接掉到50分说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。行业信号约束能力正在定价从今天的数据看约束分数每提升1分对主榜的贡献是0.45分。而执行已经接近天花板继续堆执行能力带来的边际收益远低于堆约束。未来三个月预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。没有异常波动也说明一件事当前模型能力分布已经相对固化短期内不会出现黑马把前五名直接掀翻。材料约束每差一分模型在真实落地场景里就多一分“不能用”的风险。数据来源赢政指数 (YZ Index) | Run #155 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接