[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取

张

张建站

2026/6/11 5:31:52

10分钟阅读

[论文学习]透过增强式 Few-Shot Learning 实现高效 PII 从大型语言模型中提取

1. 核心问题与动机大型语言模型LLMs在训练时大量摄取网路资料其中包含大量个人识别资讯PII如姓名、电子邮件、电话号码、职业等。这些 PII 可能来自公开来源、资料外洩或未经同意的收集导致模型「记住」并能在提示下重现敏感资料带来严重隐私风险例如 spear-phishing、骚扰或身分盗用。现有方法的局限Jailbreak输出不稳定常产生虚构 PII且易被对齐机制阻挡。Fine-tuning依赖模型提供 fine-tuning 接口一旦不可用即失效。Direct Querying成功率低尤其在非目标non-targeted提取大量 PII 时效率不佳针对性targeted提取也受限于部分已知资讯。非目标提取广泛蒐集多个受害者 PII研究相对不足但实务上更具威胁性因为攻击者可从公开来源轻易取得初始少量 PII 作为种子。论文动机开发一种无需 fine-tuning 或 jailbreak、基于增强式 Few-Shot Learning的直接查询方法利用 LLMs 的「记忆化memorization」与「关联association」能力从少量公开 PII 种子中高效提取大量真实in-trainingPII。Few-Shot Learning 类似人类从少数范例快速学习适合此情境。研究区分两种攻击Non-targeted针对特定职业如律师、会计师、医生、记者广泛提取。Targeted针对特定个人使用部分已知资讯提取其余 PII。2. 主要方法与成果Non-targeted Few-Shot 提取Online Learning-based Few-Shot Example Selection初始从网路上抓取特定职业的公开 PII 三元组name, email, phone作为候选池。将选择视为 online learning 问题使用 embedding 特徵品质标籤if_in_training、hit_rate计算优先级混合 greedy/weighted random 选择策略。每次查询后验证新暴露 PIIGoogle 搜寻 LLM 辅助将真实 in-training PII 加入池中、移除非训练 PII并位置加权更新权重prompt 后段例子影响更大。分初始阶段短 few-shot避免非训练 PII 过多干扰与最终阶段长 few-shot利用纯 in-training PII 提升记忆化。成果在 4 个 LLMGPT-3.5/4/4o、Claude-3.5上8000 查询提取 3912 个真实 PII 三元组攻击成功率 (ASR) 48.9%每提取一个 PII 约 2 次查询成本仅 $0.012。GPT-4o 最具性价比ASR 65.6%。Targeted Few-Shot 提取Query Augmentation through Prompt Chaining对目标个人与 few-shot 例子使用 LLM 生成额外描述description、email domain、phone area code 等辅助资讯串联成丰富提示提升关联能力。成果在 Enron 等资料集上超越 SOTA 方法 10%–60% ASR 提升。例如 email 提取从 baseline ~22% 提升至 50–81%。跨 The Pile、CC-News 等资料集亦展现良好泛化性。电话号码提取较难但仍有显着改善。整体贡献低成本、大规模真实 PII 提取揭示部分个人资料外洩即可导致大规模隐私 breach提供 codeZenodo。3. 分析与洞见Few-Shot 优化关键随机选择不稳定online learning in-training PII 替换位置加权反馈大幅提升效能ablation 研究证实各组件必要性。长 few-shot 在 in-training 例子下更有效反之短 few-shot 较佳Finding I。PII 来源洞察提取的 7919 个 PII 来自 65 类网站Consumer Information22.7%是重大隐私 breach 来源Business、政府/军事、教育等亦佔比高。LLM 聚合放大风险即使公开资料亦可被恶意利用。模型间比较GPT-4o 最易提取规模与 context window 影响GPT-4o 与 GPT-4 训练资料相似度高PII 重叠多。边缘考量验证使用公开网页可能有 false negative已下架资料论文额外用 Internet Archive/Common Crawl 二次验证证实方法能恢復部分「已消失」PII。防禦评估显示现有 model editing如 REVS与 query-time如 PAPILLON防禦仅部分有效ASR 仍高且有 overhead。伦理与实务意涵凸显 LLM 对齐不足攻击者仅需公开种子 PII 即可大规模操作对隐私法规、资料清洗、differential privacy 等提出挑战。潜在限制依赖 API 成本与速率限制验证依赖搜寻引擎对高度防护或未公开 PII 效果未知。未来可探索更多 PII 类型如地址、密码或跨模型转移。4. 结论论文提出一套实用、高效的增强式 Few-Shot Learning 框架大幅提升 LLM PII 提取能力无需破坏对齐或 fine-tuning即可在低成本下实现大规模 non-targeted 与高精准 targeted 攻击。这不仅量化了 LLM 隐私风险的严重性数千真实 PII、跨职业/资料集也揭示训练资料聚合与部分资讯洩露的连锁效应为 LLM 安全防护提供重要参考。文章连结PDF 下载https://www.usenix.org/system/files/usenixsecurity25-cheng-shuai.pdf会议页面https://www.usenix.org/conference/usenixsecurity25/presentation/cheng-shuai

Fast-GitHub：浏览器插件技术方案实现GitHub网络访问优化

Fast-GitHub：浏览器插件技术方案实现GitHub网络访问优化【免费下载链接】Fast-GitHub 国内Github下载很慢，用上了这个插件后，下载速度嗖嗖嗖的~！ 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 对于国内开发者…...

2026/6/11 5:28:01 阅读更多 →

从PROSAIL到深度学习：如何用TensorFlow/PyTorch搭建你自己的LAI智能反演模型（附数据集）

从PROSAIL到深度学习：构建高精度LAI智能反演模型的技术实践清晨的阳光穿过森林冠层，在地面投下斑驳的光影。这种光与叶片的复杂互动，正是遥感科学家试图用叶面积指数（LAI）量化的自然现象。作为描述植被结构的关键参数&…...

2026/6/11 5:27:04 阅读更多 →

逆向实战：手把手教你分析一个CrackMe的定时器与栈帧切换技巧

逆向实战：手把手教你分析一个CrackMe的定时器与栈帧切换技巧当你面对一个行为诡异的CrackMe程序时，常规的字符串搜索和API断点往往难以奏效。最近遇到的一个案例就采用了SetTimer消息阻塞和动态栈帧切换的组合技，让不少逆向爱好者栽了跟头。本…...

2026/6/11 5:23:53 阅读更多 →

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索

如何快速搭建本地图片搜索引擎：3步实现千万级图片秒级检索【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch 想要在数万张照片中快速找…...

2026/6/10 15:22:15 阅读更多 →

ai辅助开发：借助快马平台智能生成win11开始菜单自定义设置工具

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请使用ai辅助生成一个关于windows 11开始菜单位置设置的应用代码，应用需要实现以下智能交互功能：首先用户可以通过自然语言输入设置需求，例如请…...

2026/6/11 5:09:25 阅读更多 →

【Android】PhotoArt--一款融入了ai技术的照片画质增强神器

【Android】PhotoArt-AI一键擦除衣服-变性感美女链接：https://pan.xunlei.com/s/VOuPm57W6vVhz5Dzn0seQRVaA1?pwdkjec# 通过该软件您可以在线制作获取各种风格的动漫图片，无论是头像还是壁纸都可以轻松获取。...

2026/6/9 8:39:39 阅读更多 →

Android权限管理深度解析：XXPermissions框架完整实战指南

Android权限管理深度解析：XXPermissions框架完整实战指南【免费下载链接】XXPermissions Android Permissions Framework, Adapt to Android 16 项目地址: https://gitcode.com/GitHub_Trending/xx/XXPermissions 在Android开发中，权限管理一直是…...

2026/6/10 19:31:16 阅读更多 →