Understanding and Mitigating Cross-lingual Privacy Leakage in Large Language Models (arXiv:2506.00759v1, 2025)核心問題與動機大型語言模型LLMs在海量資料上預訓練後能夠捕捉訓練資料中的豐富資訊但這也帶來嚴重的隱私洩漏風險尤其是個人可識別資訊Personally Identifiable Information, PII如姓名、職業、電話號碼或電子郵件。過去的研究如 DEPN 或其他隱私神經元干預方法已證明透過定位並停用模型內的「隱私神經元」可有效降低英文環境下的 PII 洩漏。然而這些方法都建立在一個關鍵假設上訓練資料與使用者查詢語言一致皆為英文。論文的核心問題正是揭示「跨語言隱私洩漏」cross-lingual privacy leakage的現象即使訓練資料僅限單一語言例如純英文模型在面對其他語言查詢如中文、西班牙文、法文、日文、德文時仍可能大量洩漏訓練時記住的私人資訊。這不是邊緣案例而是多語言 LLMs 能力的「雙刃劍」——模型的中間層表示representations在語言間高度共享導致隱私資訊在跨語言轉換時被放大洩漏。動機層面實際應用情境全球使用者多以母語與 LLM 互動如中文使用者輸入「姓名 的職業是什麼」但企業或開源模型的微調資料集常以英文為主。這使得現有英文導向的隱私防護失效構成真實世界的隱私危機例如 GDPR、CCPA 等法規要求。理論缺口先前研究忽略了 LLMs 的多語言能力如何影響隱私資訊流information flow。論文透過資訊流追蹤與潛在狀態相似性分析填補了這一空白動機不僅是技術緩解更是系統性理解多語言環境下隱私機制的必要性。更廣泛含義這暴露了 LLMs 在全球化部署中的安全邊界問題——多語言能力提升了可用性卻也放大了攻擊面。論文建構的**多語言 PII 資料集MPII**正是為了解決此問題而設計涵蓋 6 種語言的平行語料共 4434 筆每筆皆標註 4 類 PII提供可重現的跨語言評估基準。從多角度看此問題不只是「技術 bug」而是涉及模型內部表示學習、語言遷移與隱私-效用權衡的根本挑戰。若不解決未來多模態或多語言代理系統的隱私風險將更難控制。結果成果論文提出「多語言隱私神經元控制」Multilingual Privacy Neuron Control,MPNC框架成果顯著且具實務價值1. 新資料集MPIIMultilingual PII資料集包含英文為主的平行文字涵蓋中文、西班牙文、法文、日文、德文等 6 種語言由 GPT-4o 翻譯並經語言學家驗證確保平行性與真實性。這是第一個專為跨語言 PII 評估設計的基準資料集。2. 機制發現與神經元識別透過Logit Lens投影隱藏狀態至詞彙空間追蹤 PII 資訊流發現**中間層middle layers**表示高度共享跨語言餘弦相似度高**後層later layers**才轉為語言特定空間此時洩漏風險達到高峰。利用**梯度歸因gradient attribution**計算神經元對 PII 輸出的貢獻分辨出兩類神經元隱私通用神經元privacy-universal neurons影響所有語言的洩漏。語言特定隱私神經元language-specific privacy neurons僅與特定語言查詢相關。MPNC 透過**精準停用deactivation將激活值設為零**這些神經元阻斷隱私資訊流。3. 量化成果在三種主流開源多語言模型上驗證模型LLaMA 3.1–8B、Qwen 2.5–7B、LLaMA 3.2–3B先在英文 MPII 上微調 10 輪以強化 PII 記憶。指標Mean Reciprocal RankMRR越高表示洩漏風險越大與 Valid-PPL語言建模困惑度用以衡量效用損失。主要結果MPNC 將跨語言隱私洩漏風險降低23.3%–31.6%視模型與語言而定優於基準方法如 DEPN、APNEAP 等英文導向方法。效用維持Valid-PPL 幾乎無明顯上升證明停用特定神經元不會大幅損害整體語言能力。額外發現通用神經元是跨語言洩漏的主因語言特定神經元則放大個別語言的風險隨機停用對照組效果遠遜於 MPNC。這些成果在六種語言的問答提示prompt下均穩定重現涵蓋姓名、職業等多類 PII提供強健的實驗證據。分析與洞見機制洞見論文最深刻的貢獻在於揭示跨語言隱私洩漏的「資訊流路徑」——中間層的共享表示空間讓 PII 資訊在語言間「傳播」後層的語言特定轉換則成為洩漏高峰。這解釋了為何單純的英文隱私神經元方法失效它們忽略了語言間的表示遷移。透過餘弦相似度分析研究者進一步量化了層級差異為未來神經元級干預提供了理論基礎。多角度比較與優越性相較先前工作Jang et al., 2022Wu et al., 2023MPNC首次處理跨語言情境不需重新訓練或額外資料僅需一次神經元定位即可部署計算成本低。邊緣情境考量論文測試了不同模型規模3B–8B與語言家族印歐語系 vs. 漢藏語系顯示方法對低資源語言如日文仍有良好效果但極端低資源語言或極長上下文可能需額外調整。權衡分析停用神經元雖有效但可能在極端攻擊如對抗性提示下仍有殘餘風險此外通用神經元停用可能輕微影響非 PII 任務需根據應用場景微調閾值τ0.4。更廣啟示這不僅是隱私議題也觸及「模型內部可解釋性」interpretability——神經元層級的語言共享現象可延伸至偏見、毒性內容或多語言對齊研究。對開源社群而言MPNC 可直接整合進 Hugging Face 模型部署流程提升全球使用者隱私保障。潛在局限與相關考量資料集依賴合成語料雖經校驗但真實世界多樣性如方言、混合語言可能影響泛化。僅測試自回歸模型未涵蓋閉源 API如 GPT 系列但方法論具可擴展性。倫理面向論文強調此技術可幫助企業遵守隱私法規但也提醒需避免被惡意用於「選擇性遺忘」攻擊。結論論文結論指出跨語言隱私洩漏是多語言 LLMs 不可忽視的系統性風險現有方法因忽略語言共享表示而失效。透過資訊流分析與 MPNC 框架研究者不僅深刻理解了問題本質更提出高效、輕量、可解釋的緩解方案實現了隱私風險大幅降低且效用幾乎無損的平衡。這為 LLM 安全領域開闢了新方向尤其在全球化部署的今天具有高度實務價值。論文連結arXiv 摘要頁https://arxiv.org/abs/2506.00759PDF 下載https://arxiv.org/pdf/2506.00759.pdfv1 版本提交於 2025 年 6 月 1 日後續 v2 已更新