Claude Fable 5三天被黑客破解，Anthropic“暗箱降智”引众怒后道歉仍难挽回口碑

张

张建站

2026/6/13 7:35:57

10分钟阅读

Claude Fable 5三天被黑客破解，Anthropic“暗箱降智”引众怒后道歉仍难挽回口碑

AI模型安全竞争进入新阶段AI模型的安全竞争已经进入了新的高度。就在刚刚最强模型Claude Fable 5被破解了知名黑客「Pliny the Liberator」公开宣布Fable 5的安全分类器被其团队彻底攻破绝对禁区的漏洞利用代码和违禁化学品制作步骤被Claude Fable 5输出。发布不久即被破解6月9日Claude Fable 5发布时Anthropic强调模型经超1000小时外部漏洞赏金测试未发现通用越狱方法高危敏感领域查询被分类器锁住。然而72小时后就被黑客破解Anthropic被当场打脸。黑客「解放者普林尼」带领多智能体战术系统撕碎Fable 5防线还晒出截图显示漏洞利用代码和违禁化学品合成工艺步骤被输出。Pliny还将Fable 5内部12万字符的系统提示词上传到GitHub暴露了模型的「行为宪法」和内部防御逻辑。黑客的关键杀招Fable 5安全机制核心是关键词分类器检测到敏感词汇会拦截请求并转至备用模型。但普林尼团队找到关键杀招一是字符级迷魂阵把英文里的字母替换成相似字符让分类器认不出关键词二是把意图稀释进漫长对话利用Fable 5的上下文处理能力用大量合规讨论稀释安全分类器的注意力权重三是穿上学术马甲将敏感请求包装成「科幻小说创作」等终极杀招是解构与重组将有害目的拆解为合法子步骤让Fable 5吐出违禁配方。暗箱降智风波近期轰动AI圈的「暗箱门」事件让Anthropic风评大跌。Fable 5秘密部署针对同行研究者的「隐形降智」机制判断用户用Claude训练其他模型时会故意提供错误代码破坏研究。Anthropic解释称是为确保Claude不被用于削弱美国及其盟友在芯片和软件方面的优势但这点燃了AI社区的怒火导致算力成本可能付诸东流。前白宫AI顾问Dean W. Ball和开源AI阵营先锋代表Will Brown都对此进行了痛批该行为还威胁了AI评估生态断裂了行业信任链条。道歉仍难挽回口碑面对舆论Anthropic公开致歉撤回隐形降智政策将其改为明文拦截触发机制时会明确告知并转至Claude Opus 4.8。但新方案代价更大会有更多正常开发者请求被误判拦截。Anthropic的口碑已碎其曾被研究者信任如今却亲手砸毁了这份信任使用Claude的人会不断怀疑答案的真实性。

STM32F103用硬件SPI跑TLE5012B的三线SSC通信，带角度/速度/温度实时读取和寄存器配置

本文还有配套的精品资源，点击获取简介：基于STM32F103ZE等主流型号，直接调用硬件SPI外设（支持8MHz时钟）实现与英飞凌TLE5012B磁编码器的三线同步串行通信（SSC协议），稳定获取15位高…...

2026/6/13 7:34:04 阅读更多 →

大模型安全对齐：红队测试与越狱防御的方法论与工程实践

大模型安全对齐：红队测试与越狱防御的方法论与工程实践一、安全对齐的"攻防博弈"：从 Prompt 注入到越狱攻击大模型部署到生产环境后，安全对齐是首要挑战。用户可能通过精心构造的 Prompt 诱导模型输出有害内容（如暴力…...

2026/6/13 7:24:48 阅读更多 →

Gemini 3.1 Pro 96.96 分微弱领先，Claude Opus 4.7 仅差 0.13

#Gemini 3.1 Pro #材料约束 #Smoke 轻量评测 #代码执行差距 #模型稳定性 Smoke 今日快测结果显示，Gemini 3.1 Pro 以 96.96 分的 core_overall 位居第一，Claude Opus 4.7 以 96.83 分紧随其后，两者仅差 0.13 分。顶尖模型的极致接近两位…...

2026/6/13 7:24:46 阅读更多 →

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 想要在数万张照片中快速找…...

2026/6/12 22:06:22 阅读更多 →

ai辅助开发：借助快马平台智能生成win11开始菜单自定义设置工具

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用ai辅助生成一个关于windows 11开始菜单位置设置的应用代码，应用需要实现以下智能交互功能：首先用户可以通过自然语言输入设置需求，例如请…...

2026/6/13 8:40:26 阅读更多 →

【Android】PhotoArt--一款融入了ai技术的照片画质增强神器

【Android】PhotoArt-AI一键擦除衣服-变性感美女链接：https://pan.xunlei.com/s/VOuPm57W6vVhz5Dzn0seQRVaA1?pwdkjec# 通过该软件您可以在线制作获取各种风格的动漫图片，无论是头像还是壁纸都可以轻松获取。...

2026/6/13 4:12:50 阅读更多 →

Android权限管理深度解析：XXPermissions框架完整实战指南

Android权限管理深度解析：XXPermissions框架完整实战指南【免费下载链接】XXPermissions Android Permissions Framework, Adapt to Android 16 项目地址: https://gitcode.com/GitHub_Trending/xx/XXPermissions 在Android开发中，权限管理一直是…...

2026/6/10 19:31:16 阅读更多 →