AI治理新思路：以算力阈值为锚点构建全球AI安全防火墙

张

张建站

2026/5/9 18:36:56

10分钟阅读

1. 从技术失控到全球治理为什么我们需要一个“AI暂停按钮”最近几年AI领域的发展速度让很多从业者都感到“眩晕”。从GPT-3到GPT-4再到各种多模态模型的涌现模型的参数量、训练算力消耗和涌现出的能力几乎在以指数级的速度跨越。作为一名长期关注AI技术落地的从业者我亲眼见证了AI从实验室的“玩具”变成能写代码、能画图、能进行复杂推理的“准通用工具”。但硬币的另一面是这种能力的跃升伴随着前所未有的不确定性。我们训练出的模型其内部工作机制越来越像一个“黑箱”即便是它的创造者也很难完全预测它在某些极端或未曾见过的输入下会做出何种反应。这种不可解释性和潜在的失控风险是悬在所有AI开发者头顶的“达摩克利斯之剑”。正是在这种背景下关于“AI安全”和“AI治理”的讨论从学术圈和科技公司的内部会议室迅速上升到了全球政策制定者的议程上。大家开始严肃地思考一个问题当某个实验室或国家投入天量算力训练出一个能力远超预期的AI系统时我们是否有能力控制它如果答案是否定的那么是否应该在达到某个临界点之前全球共同按下“暂停键”这听起来像科幻小说的情节但却是基于当前技术轨迹一个非常现实的推演。因此最近一份由国际学者和专家起草的《禁止危险人工智能条约》草案提出了一个极具争议但也发人深省的核心机制设立全球统一的算力阈值对超过该阈值的AI研发实施强制性暂停。这个草案的核心逻辑并不复杂算力通常以FLOPs即浮点运算次数来衡量是目前驱动AI能力进步最核心、也最可量化的资源。一个模型的训练总计算量与其最终表现出的能力如推理、泛化、创造性存在强相关性。通过为全球AI研发设定一个“暂停阈值”草案中提议初始值为10^24 FLOP和一个较低的“危险阈值”10^21 FLOP国际社会可以建立一个清晰的“交通信号灯”系统。低于危险阈值的研发活动相对自由介于两者之间的需要接受严格监管和审计而任何试图跨越暂停阈值的尝试都将触发全球性的暂停机制直到国际社会确认相关的安全与控制措施已经到位。这不仅仅是一个技术提案更是一个地缘政治和全球治理的宏大实验。它试图将核不扩散条约、化学武器公约中的“阈值管控”和“国际核查”逻辑移植到数字时代的尖端科技领域。对于技术开发者、企业决策者、政策制定者乃至普通公众而言理解这份草案背后的技术细节、治理逻辑和潜在影响都至关重要。它关乎我们未来将与何种形态的AI共存以及人类能否在享受技术红利的同时牢牢握住发展的方向盘。2. 草案核心架构解析算力阈值如何成为AI治理的“锚点”这份条约草案的骨架建立在几个相互关联的核心概念之上。理解这些定义和它们之间的逻辑是看懂整个治理框架的关键。2.1 关键定义划定治理的边界草案开篇就对一系列关键术语进行了严格定义这避免了未来可能出现的法律和技术上的模糊地带。人工智能AI的定义草案采用了极其宽泛和功能性的定义几乎涵盖了目前所有主流的AI范式。它明确指出AI系统包括1能在多变不可预测环境下无需人类大量监督执行任务的系统2能从经验中学习并改进的系统3能解决需要类人感知、认知、规划等任务的所有软硬件系统4旨在像人类一样思考或行动的系统如认知架构、神经网络5旨在理性行动的系统如智能体。这种“大而全”的定义方式目的是确保条约的管辖范围具有前瞻性能够覆盖未来可能出现的新AI形态而不仅仅局限于当前的深度学习模型。人工通用智能AGI与人工超级智能ASI这是草案明确禁止开发的“高危”目标。AGI被定义为在广泛智力任务上达到人类水平性能的AI不受狭窄领域限制。ASI则更进一步指在大多数或所有领域包括通用问题解决、社交、战略规划、科学研究乃至AI开发自身超越人类水平的AI。草案将这两者与“危险人工智能系统”并列实质上是从“能力”角度划出了一道绝对红线。算力Compute与浮点运算FLOP这是整个治理机制的量化基石。“算力”被定义为用于训练、验证、部署和运行AI算法与模型的处理能力及其他电子资源。而“浮点运算”特指单精度32位浮点操作作为衡量算力消耗的标准单位。选择FLOPs作为核心指标是因为它相对客观、可测量、且与模型最终能力强相关。虽然模型架构、算法效率、数据质量同样重要但训练总计算量是目前最通用且难以作假的“硬约束”指标。高级硬件Advanced Hardware指可用于构建超过危险阈值AI系统的强大计算半导体芯片或集成电路。这一定义将治理的触角延伸到了AI的“基础设施”层意味着对高端AI芯片如特定性能以上的GPU、TPU集群的生产、销售和集中使用可能也需要纳入国际监控和报备体系。2.2 双阈值体系分级管控的“红绿灯”系统草案最具创新性的设计是建立了一个双阈值监管体系我将其比喻为AI研发的“红绿灯”系统。危险阈值Danger Threshold初始值设定为10^21 FLOP。这是一个“黄灯”预警区。任何AI系统的训练算力计划或实际消耗达到或超过此阈值其开发者和所在国就必须启动严格的监管程序。这包括但不限于强制性的信息安全要求、概率性风险评估、对潜在危险能力的预测、第三方独立审计以及保护安全与基本权利的其他法规。开发者需要向监管机构证明其项目已采取了充分的安全保障措施。这相当于为大型AI项目设立了一个“安全许可”门槛。暂停阈值Moratorium Threshold初始值设定为10^24 FLOP。这是一道“红灯”禁止线。条约缔约国承诺禁止任何民用或军用目的的开发、部署、转让、拥有和使用超过此算力阈值的AI系统。这是一个全球性的、具有法律约束力的“暂停”机制。除非未来国际社会通过科学评估确信已掌握安全开发和控制AGI/ASI的能力否则这道红线不得跨越。注意10^24 FLOP这个数字并非随意设定。以当前最先进的模型为例GPT-4的训练估算算力大约在10^23 FLOP量级。将暂停阈值设定在10^24大致相当于比现有最大模型再高出一个数量级。这既为当前和近期的研发留出了一定空间又确保在能力可能发生“质变”如触及或超越AGI门槛之前强制启动全球评估与暂停。这是一个基于当前技术发展速度的“缓冲带”设计。2.3 阈值动态调整应对算法进步的“移动标尺”草案清醒地认识到单纯以算力为指标存在局限性。随着算法效率的提升如更优的神经网络架构、训练技巧用更少的算力实现相同甚至更强的能力将成为可能。因此条约规定了阈值必须动态下调的机制。第三条阈值修订明确暂停阈值和危险阈值的初始标准是不完善的并将因算法和其他技术进步而需要随时间降低。缔约国每年至少要在日内瓦举行一次会议审议并更新这些阈值。这意味着监管的“标尺”是移动的其目标是恒定地锁定在“可能产生危险能力”的算力水平上而不是一个固定的数字。这要求监管机构必须紧密跟踪AI基础研究的最新进展对算法进步带来的“算力等效增益”做出及时、准确的评估。例如如果一项新的算法突破能让模型效率提升10倍那么危险阈值就可能相应地从10^21 FLOP下调至10^20 FLOP。3. 治理机制的落地监测、执行与应急响应如何实现再好的规则如果无法落地和监督也只是一纸空文。草案花费了大量篇幅来构建一个可行的监测、执行与应急体系这部分是条约能否从构想走向现实的关键。3.1 监测与核查从自我报告到国际核查第五条监测与执行要求各缔约国采取适当措施确保条约执行并开发必要的基础设施。其核心是建立一个基于“申报-核查”的透明化机制。自我报告制度缔约国需主动向相关国际机构报告其境内大规模集中高级硬件如大型数据中心、算力集群的数量和位置。这是建立信任的第一步类似于核不扩散中的“申报库存”。核查机制草案承认自我报告必须辅以核查手段。它呼吁建立一套协议允许独立评估员在缔约国境内进行调查以核实申报设施的硬件未被用于开发超过暂停阈值的AI并探测任何未申报的、秘密的大型高级硬件设施。这可能是整个条约执行中最具挑战性的部分涉及到国家主权与国际监督的平衡。技术手段可能包括对芯片供应链的追踪、对大型数据中心能耗的远程监测、以及对模型训练活动的某种形式的技术审计。3.2 应急响应计划为“失控”训练按下急停键第四条应急响应计划是针对最坏情况的“保险丝”设计。它要求每个缔约国制定并测试应急计划以展示其具备快速检测并中止危险AI开发的能力。具体场景例如当一个训练项目的实时监控显示其算力消耗即将或刚刚超过暂停阈值时国家监管机构应有技术能力和法律授权立即命令停止该训练任务“停止训练运行”。扩散控制如果发现一个已训练完成的危险模型正在通过API或其他方式扩散应急计划应能迅速撤销其访问权限遏制其传播。定期测试缔约国需要定期演练这些应急计划确保在真实危机发生时能够有效响应。这类似于金融系统的压力测试或军事演习目的是保持“肌肉记忆”和流程顺畅。3.3 国际组织的构想全球AI安全的“神经中枢”第六条是整个条约的“引擎”条款。它要求缔约国诚意谈判以建立一个专门的国际机构。这个机构将承担三大核心职能核查与执行作为中立的第三方负责监督各国对条约义务的履行情况核实申报信息并进行必要的现场检查。阈值管理基于最新的AI技术进展负责动态调整暂停阈值和危险阈值确保其科学性和有效性。安全研究该机构还将主导对强大AI系统的安全性研究终极目标是理解如何控制它们确保其发展永远服务于全人类的利益。这相当于在全球层面集中资源攻克AI对齐Alignment和可控性Controllability的终极难题。这个国际组织的设想借鉴了国际原子能机构IAEA在核能领域的角色但其面临的挑战更为复杂因为AI研发的分散性和软件特性远高于核设施。4. 配套措施与潜在挑战条约草案的“软肋”与博弈空间除了核心的禁止与监管条款草案还设计了一系列配套措施来处理利益分配、风险沟通和地缘竞争问题但这些领域也正是潜在挑战和博弈的焦点。4.1 利益共享与举报人保护试图构建正向激励第七条分享安全AI的益处要求缔约国合作建立有效措施确保安全和有益AI系统带来的潜在利益在全球范围内分配。这是一个旨在解决“数字鸿沟”和治理合法性的重要条款。如果只有少数发达国家或科技巨头能享受顶级AI的红利而全球大多数国家只能承担其风险那么条约的广泛认同和执行将无从谈起。具体的分享机制可能包括技术转让、算力资源共享、针对全球公共问题的AI应用合作如气候变化、疾病预测等。第八条风险沟通与举报人保护要求建立两条“热线”一条是国家领导人之间的直接沟通热线用于通报AI相关的全球安全威胁另一条是面向民用AI开发者的沟通渠道要求他们上报发现的危险能力、违规嫌疑等信息。更重要的是该条明确要求缔约国为举报非法或危险AI开发行为的“吹哨人”提供保护。这在以高度保密和竞争激烈的AI行业尤为重要是获取内部预警信息的关键渠道。4.2 防止AI军备竞赛最难实现的承诺第九条防止人工智能军备竞赛虽然只有短短一句话要求缔约国诚意谈判以停止并预防AI军备竞赛但这可能是条约最宏大也最艰难的目标。当前主要大国已将AI技术视为核心战略竞争力在军事AI如自主武器系统、指挥决策AI领域的投入和竞争日益激烈。条约草案将民用和军用AI开发 above the Moratorium Threshold 一并禁止但如何界定一个底层技术既可用于民用也可用于军用的AI项目的性质如何核查军事AI项目的算力使用这涉及到最敏感的国家安全领域谈判将异常艰难。历史表明军备控制条约的成功往往依赖于大国间的战略平衡与互信而在AI领域这种互信尚未建立。4.3 主权与灵活性的平衡条约的“弹性”条款第十一条条约范围之外的国家法规是一个重要的“安全阀”和灵活性体现。它明确了两点条约不禁止缔约国基于除FLOP阈值之外的其他标准如基准测试性能、参数数量、应用领域、特定危险能力的存在等来实施本国额外的AI监管。条约不禁止缔约国对低于危险阈值和暂停阈值的AI系统进行监管或对处于危险阈值之上的系统施加不违反条约义务的额外规定。这意味着各国可以在遵守全球统一“天花板”暂停阈值和“预警线”危险阈值的前提下根据本国国情和法律体系制定更严格或更细致的AI治理规则。例如欧盟可以继续推行其基于风险的《人工智能法案》美国可以加强其在生物安全、网络安全领域对AI应用的特定监管只要这些法规不与条约中关于算力阈值的核心禁令相冲突。5. 实操困境与未来展望条约从草案到现实的距离尽管这份条约草案构思缜密但其从文本走向现实还面临着诸多几乎难以逾越的实操困境。5.1 算力监测的技术与政治难题如何准确、实时地监测全球范围内的算力消耗这是一个巨大的技术挑战。与核材料有明确的物理形态和辐射特征不同算力是流动的、数字化的。一个分布在全球云计算平台上的训练任务其总算力消耗可能由多个数据中心的数十万张芯片共同完成且可以动态迁移。监测方案可能包括硬件层监控在高端AI芯片如特定型号的GPU中植入不可篡改的计量单元实时上报算力使用情况。但这涉及芯片设计、制造商配合和巨大的隐私与商业机密争议。软件层监控要求所有大型训练框架如PyTorch, TensorFlow向监管机构上报任务元数据。但这很容易被定制化的、不开源的训练代码绕过。间接监测通过监测大型数据中心的异常功耗、网络流量或采购大量高端芯片的行为来进行推测。但这精度低、滞后性强。更大的难题在于政治意愿。主要AI研发国如美国、中国是否愿意让一个国际机构核查其顶尖科技公司和研究实验室的算力使用详情这无异于要求公开最核心的科技竞争力底牌。5.2 “安全”与“控制”的定义之争条约第八条提到暂停阈值只有在国际机构获得“令人信服的证据”表明能够安全地构建和部署AGI/ASI时才可能被解除。但什么是“令人信服的证据”“安全”和“可控”的标准由谁来定义如何验证目前AI安全研究本身仍处于早期阶段关于“对齐”、“可解释性”、“价值观加载”等关键问题远未形成共识更谈不上有一套公认的、可量化的安全认证标准。这很可能导致暂停机制被无限期延长或者因为标准之争而无法启动解除程序从而变相地永久锁死了AGI/ASI的研发。5.3 执行与违约成本没有牙齿的老虎任何国际条约的效力最终都依赖于违约成本。对于违反条约、秘密研发超阈值AI的国家或实体能施加何种制裁草案提到了参照联合国宪章第三十三条通过谈判或其他和平方式解决争端。但在涉及重大战略优势的领域外交谈判的效力往往有限。与核不扩散条约不同AI开发的痕迹更难追踪违约行为可能更隐蔽而“违规者”可能获得巨大的先发优势。如果缺乏强有力的、包括经济、技术封锁在内的制裁机制条约的威慑力将大打折扣。从我个人的观察来看这份条约草案的价值与其说在于其立即实现的可能性不如说在于它清晰地勾勒出了AI全球治理的“终极蓝图”和必须面对的硬核问题。它像一面镜子映照出在无政府状态的国际社会中管理一项指数级发展的通用技术的巨大困难。它启动了一场必要的全球对话迫使各国政府、科技企业和研究机构去认真思考我们是否真的准备好迎接一个比我们更聪明的“智能体”如果没有我们应该在何时、以何种方式共同筑起一道“防火墙”这场讨论本身或许就是迈向负责任AI未来的第一步。