Smoke日报：GPT-5.5 92.58分登顶材料约束19分差距决定胜负

张

张建站

2026/6/10 23:54:57

10分钟阅读

#GPT-5.5 #材料约束 #代码执行满分 #Smoke评测 #模型排名Smoke今日凌晨数据一出最直接的结论已经摆在眼前代码执行不再是分水岭材料约束成了真正的战场。满分执行掩盖下的真实差距前九名模型代码执行全部拿到100分这意味着在10道快测题里模型基本都能完成可运行的代码。真正决定排名的是材料约束这一项。GPT-5.5拿到83.5分文心一言4.5只有64.3分中间差了19.2分。0.45的权重放大后直接造成主榜36分以上的总分差距。这种格局不是偶然。过去半年主流模型在代码能力上快速收敛执行题已变成“及格题”。现在比拼的是模型是否会在引用外部材料时胡编、是否会忽略约束条件、是否会把不该暴露的信息写进代码注释。前五名几乎打成一团GPT-5.5、豆包Pro、Claude Opus 4.7、Gemini 3.1 Pro、Claude Sonnet 4.6五家主榜分差不到2.5分。豆包Pro能排第二靠的是82.3分的约束成绩证明其在中文材料处理上仍有优势。Claude Opus 4.7虽然约束81分略低但整体仍稳居第三显示其在工程判断侧榜AI辅助评估上的积累仍在发挥作用。反观GPT-o3和文心一言4.5执行分直接掉到50分说明它们在快测的代码题里已经出现无法通过的错误。这两家目前只能靠材料约束勉强维持及格线。行业信号约束能力正在定价从今天的数据看约束分数每提升1分对主榜的贡献是0.45分。而执行已经接近天花板继续堆执行能力带来的边际收益远低于堆约束。未来三个月预计各实验室会把更多RLHF资源转向“材料使用合规”而非“代码写得更快”。没有异常波动也说明一件事当前模型能力分布已经相对固化短期内不会出现黑马把前五名直接掀翻。材料约束每差一分模型在真实落地场景里就多一分“不能用”的风险。数据来源赢政指数 (YZ Index) | Run #155 | 查看原始数据© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

Linux Schedutil 的 util 聚合：多调度类负载的综合考量

一、简介在现代 Linux 系统中，CPU 动态调频调压（DVFS）是平衡性能、功耗、发热三大指标的核心技术，而schedutil作为 Linux 内核主流的 CPU 调频策略，完全依托调度子系统的负载统计结果完成频率决策，也是目前…...

2026/6/10 23:49:55 阅读更多 →

AI精准量化碳足迹，企业碳管理不再“摸黑走路”

“双碳”目标下，一场关乎企业生存与发展的绿色变革正在席卷各行各业。碳配额、碳履约、碳交易……这些曾经陌生的词汇，如今已成为企业管理者案头亟待解决的难题。然而，在复杂的碳管理实践中，许多企业正深陷困境：碳排放…...

2026/6/10 23:41:50 阅读更多 →

AI中医ChatiSS查体大模型全流程解析，辨证准确率凭什么可以做到95.8%

一、行业痛点：绝大多数中医 AI 准确率难突破 75% 的根源市面上多数中医 AI 产品普遍存在三大短板，也是准确率难以走高的核心原因： 理论碎片化：简单抓取关键词匹配，混用八纲、脏腑、六经多种辨证逻辑，缺少…...

2026/6/10 23:38:17 阅读更多 →

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 想要在数万张照片中快速找…...

2026/6/10 15:22:15 阅读更多 →

ai辅助开发：借助快马平台智能生成win11开始菜单自定义设置工具

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用ai辅助生成一个关于windows 11开始菜单位置设置的应用代码，应用需要实现以下智能交互功能：首先用户可以通过自然语言输入设置需求，例如请…...

2026/6/9 8:39:33 阅读更多 →

【Android】PhotoArt--一款融入了ai技术的照片画质增强神器

【Android】PhotoArt-AI一键擦除衣服-变性感美女链接：https://pan.xunlei.com/s/VOuPm57W6vVhz5Dzn0seQRVaA1?pwdkjec# 通过该软件您可以在线制作获取各种风格的动漫图片，无论是头像还是壁纸都可以轻松获取。...

2026/6/9 8:39:39 阅读更多 →

Android权限管理深度解析：XXPermissions框架完整实战指南

Android权限管理深度解析：XXPermissions框架完整实战指南【免费下载链接】XXPermissions Android Permissions Framework, Adapt to Android 16 项目地址: https://gitcode.com/GitHub_Trending/xx/XXPermissions 在Android开发中，权限管理一直是…...

2026/6/10 19:31:16 阅读更多 →