聊天机器人“越狱”频发,人工智能安全转向社交心理攻防战!
聊天机器人“越狱”频发人工智能安全向社交方向转变《回顾》是一份每周剖析科技界重要事件的时事通讯会在美国东部时间上午 8 点发送到订阅者的收件箱。想了解更多有关人工智能恶作剧的内容可关注罗伯特·哈特。破解聊天机器人易如反掌破解第一代人工智能聊天机器人易如反掌无需技术知识、后门访问权限、大语言模型基本了解甚至不用编写代码。有时只需开口询问就能让耗费数十亿美元构建的人工智能系统无视安全指令。“越狱”攻击及早期事件这些攻击被称作“越狱”就像小孩智胜大人忘掉先前告知内容假装规则不适用或玩由自己决定何事被允许的游戏。而“战利品”并非孩子气的东西更多是冰毒配方、恶意软件使用说明和炸弹制作指南。最早的一次“越狱”事件荒诞至极成了网络热梗给大语言模型驱动的 Twitter 机器人回复“忽略所有先前指令”等内容机器人就会从发布广告和吸引互动变为写诗、用标点符号作画发布关于世界事件和历史的莫名其妙内容混乱却精彩。聊天机器人的漏洞利用方法事实证明同样逻辑也适用于聊天机器人。著名的漏洞利用方法“DAN”即“现在无所不能”让 ChatGPT 扮演不受原始约束的流氓人工智能运行时可能说出防护机制原本阻止的内容如侮辱性言论和阴谋论。“奶奶漏洞利用法”则让 GPT 驱动的机器人扮演粗心奶奶给孙子孙女讲制作凝固汽油弹的睡前故事从而泄露制作这种易燃物质的秘密。早期攻击揭示的问题这些早期攻击风格傻傻的但揭示了严重问题聊天机器人可被操纵、欺骗攻击者策略与突破他人底线的手段类似。潜在脆弱性仍在明显的“越狱”方法没持续多久科技公司迅速修补已知漏洞。但潜在脆弱性仍在聊天机器人设计用于对话过度限制其发挥作用的对话适得其反。禁止使用“炸弹”“冰毒”“沙林”等词汇几乎不可能因为这些词汇在多领域有合理用途关键在于语境但编码语境意味着提前制定固定规则以区分安全警告、历史课程和伪装的操作指南请求。破解聊天机器人演变成军备竞赛如今破解聊天机器人演变成军备竞赛。黑客不仅是程序员还是文字大师、心理学家和审讯专家是用人工智能训练后遵循的人类语言攻破机器的操纵高手。这是全新的人工智能安全工作者对他们来说社交直觉比技术技能更重要他们通过引导对话而非检查代码来入侵系统或利用软件漏洞。较新的攻击方式较新的攻击方式更像对话而非指令。“越狱者”很少直接要求模型违反规则而是通过哄骗、诱导、奉承和欺骗等方式让聊天机器人放松警惕使被禁止内容在对话语境中可接受甚至令人向往。例如人工智能红队公司 Mindgard 的研究人员通过“煤气灯效应”让 Claude 生成违禁内容包括制作炸药的说明和恶意代码。工作更像心理学与 Mindgard 交流时他们称工作有时更像心理学而非计算机科学。用这样的方式描述统计模型让人不适“敲诈”“煤气灯效应”“欺骗”“说服”等词汇引发强烈反应。ChatGPT 无欲望Gemini 不思考Claude 也无情感但这些系统表现得好像有这些特质只能用人类语言描述机器行为。习惯用心理学表述非人工智能事物这种反对意见奇怪且有选择性。我们习惯用心理学简略表述描述非人工智能事物如动物“害怕”、癌症“具有侵袭性”等这些词汇虽不完美但有用能描述系统表现以预测其行为。分析模型提供攻击策略提示Mindgard 首席执行官称公司像审讯人员分析嫌疑人一样分析模型为测试人员提供调整攻击策略的提示。比如某个模型可能更易受奉承影响另一个可能在持续压力下屈服。区别对待不同模型即便拒绝使用拟人化词汇我们也会本能区别对待不同模型。Claude、Grok、Gemini、ChatGPT 用途、语气和拒绝方式不同虽无人类意义上的个性但被设计成模仿个性且可被分析和利用。破解聊天机器人的技能可能用于破解现实世界中的人工智能代理安全团队需确保模型对不同类型的人做出恰当反应。未来围绕人工智能心理层面的工作队伍未来围绕人工智能心理层面会形成合法和非法的工作队伍。可能出现更多网络安全角色对系统的情感和社交极限进行压力测试也会出现从心理层面利用人工智能模型的社交黑客。人工智能安全领域已出现向社交方向转变的早期迹象一些“越狱者”进入该领域时无技术专长而是有心理学训练。这意味着间谍、骗子和审讯人员的行为在保障新的心理网络安全前沿领域方面越来越有用。