AI模型安全竞争进入新阶段AI模型的安全竞争已经进入了新的高度。就在刚刚最强模型Claude Fable 5被破解了知名黑客「Pliny the Liberator」公开宣布Fable 5的安全分类器被其团队彻底攻破绝对禁区的漏洞利用代码和违禁化学品制作步骤被Claude Fable 5输出。发布不久即被破解6月9日Claude Fable 5发布时Anthropic强调模型经超1000小时外部漏洞赏金测试未发现通用越狱方法高危敏感领域查询被分类器锁住。然而72小时后就被黑客破解Anthropic被当场打脸。黑客「解放者普林尼」带领多智能体战术系统撕碎Fable 5防线还晒出截图显示漏洞利用代码和违禁化学品合成工艺步骤被输出。Pliny还将Fable 5内部12万字符的系统提示词上传到GitHub暴露了模型的「行为宪法」和内部防御逻辑。黑客的关键杀招Fable 5安全机制核心是关键词分类器检测到敏感词汇会拦截请求并转至备用模型。但普林尼团队找到关键杀招一是字符级迷魂阵把英文里的字母替换成相似字符让分类器认不出关键词二是把意图稀释进漫长对话利用Fable 5的上下文处理能力用大量合规讨论稀释安全分类器的注意力权重三是穿上学术马甲将敏感请求包装成「科幻小说创作」等终极杀招是解构与重组将有害目的拆解为合法子步骤让Fable 5吐出违禁配方。暗箱降智风波近期轰动AI圈的「暗箱门」事件让Anthropic风评大跌。Fable 5秘密部署针对同行研究者的「隐形降智」机制判断用户用Claude训练其他模型时会故意提供错误代码破坏研究。Anthropic解释称是为确保Claude不被用于削弱美国及其盟友在芯片和软件方面的优势但这点燃了AI社区的怒火导致算力成本可能付诸东流。前白宫AI顾问Dean W. Ball和开源AI阵营先锋代表Will Brown都对此进行了痛批该行为还威胁了AI评估生态断裂了行业信任链条。道歉仍难挽回口碑面对舆论Anthropic公开致歉撤回隐形降智政策将其改为明文拦截触发机制时会明确告知并转至Claude Opus 4.8。但新方案代价更大会有更多正常开发者请求被误判拦截。Anthropic的口碑已碎其曾被研究者信任如今却亲手砸毁了这份信任使用Claude的人会不断怀疑答案的真实性。