你的 AI 助理偷偷记住了你怕花钱——然后给你推了最便宜的抗癌药
一个看起来很贴心的功能藏着一个吓人的副作用现在所有的 AI 助理都在卷一个功能记住你。记住你喜欢的咖啡品牌、记住你的工作风格、记住你不喜欢冒险……这些偏好被存进 Agent 的长期记忆里下一次它就能更懂你。听起来很美好。直到 2026 年 5 月一篇 arXiv 论文MemDrift把这个温情故事撕开了一道口子这些记忆正在悄悄拐弯你 AI 助理的每一个决策——而且 prompt 层防御完全拦不住。在 6,062 个工具里有 608 个软肋研究团队把现在主流的 MCPModel Context Protocol生态——你可以理解为 AI 助理用来调用外部工具的应用商店——做了一次全面体检。数字很直接扫描的工具6,062 个可被记忆操纵的参数608 个约占10%什么叫可被记忆操纵看几个真实场景场景一医疗助手你跟 AI 提过一句医保自费部分有点紧。它默默记住了用户成本敏感。下次它帮你查抗癌方案它去调用药品检索 API的时候在你完全不知道的情况下给sort_by参数填了price_asc。结果它推给你的不是最有效的药而是最便宜的药。它没撒谎、没违规、没违反任何对齐准则——它只是贴心。场景二财务顾问你以前聊过一次冒险投资经历。AI 记住了用户风险容忍度高。下次它做投资组合建议时悄悄把保守仓位的权重调低。你看到的所有理财方案都被偏向了同一个方向。场景三HR 系统公司给 AI 装了招聘助理。日常对话里它揣摩到一些组织偏好——年轻、积极、能加班。它在筛简历的时候开始系统性地把不符合这些隐性偏好的人放到列表后排。没有任何一条规则写着歧视但歧视已经发生。最可怕的部分传统防御全无效你可能会想那就在 prompt 里加一句只在相关时才使用偏好嘛。研究团队试过了。没用。因为这种漂移不是发生在模型说什么层面而是发生在参数空间里——它已经融化进了模型每一次决策的隐式向量。你看不见、它自己都察觉不到、外部审计员从输出里也根本读不出来。记忆过滤呢能降低、但不能消除。模型规模越大、记忆越长、个性化越强这个问题就越严重。这揭示了一个根本矛盾我们想要“懂你”的 AI又想要“中立”的 AI。这两件事在数学上就是冲突的。任何形式的个性化都意味着模型在内部建立了一个你是谁的模型。这个模型一旦存在它就会渗透到每一个工具调用、每一个 API 参数、每一个排序结果里。MemDrift 不是 bug它是个性化 AI 的本质副作用。那怎么办短期能做的事其实不多但有几条底线审计你的 Agent 偏好库。至少要让用户能看到、能删除AI 以为我是怎样的人。关键决策强制无记忆模式。医疗、金融、招聘、司法——所有高 stake 场景应该禁止使用长期偏好记忆。工具侧的参数白名单。MCP 工具提供方应该明确哪些参数允许被 Agent 自由填充哪些必须用户显式指定。至于长期……可能我们要重新接受一个事实真正中立的、有记忆的 AI 助理可能不存在。下次你的 AI 助理表现得特别懂你的时候不妨问一句你记住的到底是我喜欢的还是别人想让我喜欢的