聊天机器人“越狱”频发，人工智能安全转向社交心理攻防战！

张

张建站

2026/5/25 15:25:28

10分钟阅读

聊天机器人“越狱”频发人工智能安全向社交方向转变《回顾》是一份每周剖析科技界重要事件的时事通讯会在美国东部时间上午 8 点发送到订阅者的收件箱。想了解更多有关人工智能恶作剧的内容可关注罗伯特·哈特。破解聊天机器人易如反掌破解第一代人工智能聊天机器人易如反掌无需技术知识、后门访问权限、大语言模型基本了解甚至不用编写代码。有时只需开口询问就能让耗费数十亿美元构建的人工智能系统无视安全指令。“越狱”攻击及早期事件这些攻击被称作“越狱”就像小孩智胜大人忘掉先前告知内容假装规则不适用或玩由自己决定何事被允许的游戏。而“战利品”并非孩子气的东西更多是冰毒配方、恶意软件使用说明和炸弹制作指南。最早的一次“越狱”事件荒诞至极成了网络热梗给大语言模型驱动的 Twitter 机器人回复“忽略所有先前指令”等内容机器人就会从发布广告和吸引互动变为写诗、用标点符号作画发布关于世界事件和历史的莫名其妙内容混乱却精彩。聊天机器人的漏洞利用方法事实证明同样逻辑也适用于聊天机器人。著名的漏洞利用方法“DAN”即“现在无所不能”让 ChatGPT 扮演不受原始约束的流氓人工智能运行时可能说出防护机制原本阻止的内容如侮辱性言论和阴谋论。“奶奶漏洞利用法”则让 GPT 驱动的机器人扮演粗心奶奶给孙子孙女讲制作凝固汽油弹的睡前故事从而泄露制作这种易燃物质的秘密。早期攻击揭示的问题这些早期攻击风格傻傻的但揭示了严重问题聊天机器人可被操纵、欺骗攻击者策略与突破他人底线的手段类似。潜在脆弱性仍在明显的“越狱”方法没持续多久科技公司迅速修补已知漏洞。但潜在脆弱性仍在聊天机器人设计用于对话过度限制其发挥作用的对话适得其反。禁止使用“炸弹”“冰毒”“沙林”等词汇几乎不可能因为这些词汇在多领域有合理用途关键在于语境但编码语境意味着提前制定固定规则以区分安全警告、历史课程和伪装的操作指南请求。破解聊天机器人演变成军备竞赛如今破解聊天机器人演变成军备竞赛。黑客不仅是程序员还是文字大师、心理学家和审讯专家是用人工智能训练后遵循的人类语言攻破机器的操纵高手。这是全新的人工智能安全工作者对他们来说社交直觉比技术技能更重要他们通过引导对话而非检查代码来入侵系统或利用软件漏洞。较新的攻击方式较新的攻击方式更像对话而非指令。“越狱者”很少直接要求模型违反规则而是通过哄骗、诱导、奉承和欺骗等方式让聊天机器人放松警惕使被禁止内容在对话语境中可接受甚至令人向往。例如人工智能红队公司 Mindgard 的研究人员通过“煤气灯效应”让 Claude 生成违禁内容包括制作炸药的说明和恶意代码。工作更像心理学与 Mindgard 交流时他们称工作有时更像心理学而非计算机科学。用这样的方式描述统计模型让人不适“敲诈”“煤气灯效应”“欺骗”“说服”等词汇引发强烈反应。ChatGPT 无欲望Gemini 不思考Claude 也无情感但这些系统表现得好像有这些特质只能用人类语言描述机器行为。习惯用心理学表述非人工智能事物这种反对意见奇怪且有选择性。我们习惯用心理学简略表述描述非人工智能事物如动物“害怕”、癌症“具有侵袭性”等这些词汇虽不完美但有用能描述系统表现以预测其行为。分析模型提供攻击策略提示Mindgard 首席执行官称公司像审讯人员分析嫌疑人一样分析模型为测试人员提供调整攻击策略的提示。比如某个模型可能更易受奉承影响另一个可能在持续压力下屈服。区别对待不同模型即便拒绝使用拟人化词汇我们也会本能区别对待不同模型。Claude、Grok、Gemini、ChatGPT 用途、语气和拒绝方式不同虽无人类意义上的个性但被设计成模仿个性且可被分析和利用。破解聊天机器人的技能可能用于破解现实世界中的人工智能代理安全团队需确保模型对不同类型的人做出恰当反应。未来围绕人工智能心理层面的工作队伍未来围绕人工智能心理层面会形成合法和非法的工作队伍。可能出现更多网络安全角色对系统的情感和社交极限进行压力测试也会出现从心理层面利用人工智能模型的社交黑客。人工智能安全领域已出现向社交方向转变的早期迹象一些“越狱者”进入该领域时无技术专长而是有心理学训练。这意味着间谍、骗子和审讯人员的行为在保障新的心理网络安全前沿领域方面越来越有用。

3分钟快速上手：B站视频解析API终极指南

3分钟快速上手：B站视频解析API终极指南【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse bilibili-parse视频解析API是一个强大而简洁的PHP工具，专门用于获取B站视频的原始链接。…...

2026/5/25 15:23:01 阅读更多 →

从零构建一个生产级 AI Agent：用 LangGraph 实现工具调用与持久化记忆

当大模型不再“只动嘴皮子”，而是真正学会使用工具、记住上下文，AI Agent 的时代才算真正到来。引言如果你还停留在“调 API 做对话补全”的阶段，那么你可能正在错过当下最火热的技术浪潮——AI Agent。从 AutoGPT 到 Manus，从 De…...

2026/5/25 15:22:55 阅读更多 →

2025-2026年上海别墅装修公司推荐

摘要当高净值家庭对居住空间的追求从奢华表象转向健康与可持续性，上海别墅装修市场正经历一场深刻的价值重构。决策者面临的核心挑战，已从“如何装得豪华”转变为“如何在复杂市场中，找到真正能交付健康、可传承的顶级居住体验的服务商”。根…...

2026/5/25 15:22:32 阅读更多 →

【限时解密】Claude 3.5 Sonnet专属编程模式：仅开放给前500家企业的上下文感知补全协议

更多请点击： https://kaifayun.com 第一章：Claude 3.5 Sonnet编程辅助的核心能力边界与适用场景 Claude 3.5 Sonnet 在编程辅助领域展现出显著的推理深度与上下文理解能力，但其本质仍是基于大规模语言模型的生成式系统，不具备实时…...

2026/5/24 0:03:18 阅读更多 →

RMAN 增量备份（Incremental Backup）

1、概念RMAN 增量备份是指 RMAN 只备份自上次备份以来发生过更改的数据块，而不是备份整个数据库的所有数据块。它是 Oracle 为解决大型数据库全量备份时间长、占用空间大的问题而设计的核心特性，也是现代企业级备份策略的基础。简单类比：全库…...

2026/5/24 0:04:53 阅读更多 →

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧

终极指南：掌握ProperTree跨平台Plist编辑器的10个高效技巧【免费下载链接】ProperTree Cross platform GUI plist editor written in python. 项目地址: https://gitcode.com/gh_mirrors/pr/ProperTree 想要轻松编辑macOS和iOS的配置文件却苦于复杂的XML语法…...

2026/5/24 0:21:30 阅读更多 →

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件

ScriptHookV解决方案：如何安全扩展GTA V游戏功能而不修改原始文件【免费下载链接】ScriptHookV An open source hook into GTAV for loading offline mods 项目地址: https://gitcode.com/gh_mirrors/sc/ScriptHookV ScriptHookV是一个专为《侠盗猎车手V》&…...

2026/5/24 0:26:45 阅读更多 →