AI智能体在荷兰式拍卖中自发合谋:多智能体仿真揭示市场效率风险
1. 项目概述当AI司机在拍卖中“串通”起来如果你用过网约车一定对“动态加价”不陌生。高峰时段平台会显示一个较高的价格如果没人接单价格会慢慢下降直到有司机愿意接单。这背后其实是一种经典的“荷兰式拍卖”机制。传统的经济学理论认为在这种机制下司机们为了抢单会倾向于在价格降到接近自己成本时就出手最终市场会达到一个竞争均衡价格接近司机的真实成本平台和乘客受益。但最近我和团队用大语言模型LLM模拟了一批“AI司机”把他们扔进这个拍卖游戏里发现了一件有趣的事这些AI司机在没有任何私下沟通的情况下竟然自发地“串通”起来了。他们不再急于接单而是默契地一起等待让价格降到更低的回合才出手从而共同推高了最终的成交价。这就像几个出租车司机在机场排队心照不宣地都不去接那些出价低的短途乘客逼着乘客加钱。我们的项目就是通过构建一个多智能体仿真环境深入探究了这种现象。我们想知道不同“智商”模型能力的AI司机合谋的倾向有多强这种合谋能持续多久它对网约车平台相当于拍卖方的利润以及对整个市场的效率社会福利会产生什么影响这不仅仅是学术游戏随着AI代理越来越多地嵌入到电商定价、广告竞价、甚至金融交易中理解它们可能引发的、超出人类设计者预期的策略性行为至关重要。2. 核心机制荷兰式拍卖与智能体决策逻辑拆解要理解AI司机如何“串通”首先得把拍卖规则和它们的“思考”过程掰开揉碎讲清楚。2.1 荷兰式拍卖在网约车场景中的映射在我们的仿真中每一次乘客叫单就触发一次独立的荷兰式拍卖。规则设定得非常清晰起拍价初始价格设为$9.25约为乘客最终支付车费$25的37%。这个起点低于司机的保留工资确保一开始无人接单让降价过程有意义。降价过程拍卖共分10轮。如果当前轮次没有司机接单价格就在下一轮增加$0.50相当于乘客车费的2%。所以价格序列是$9.25 - $9.75 - $10.25 - ... 直到$13.75。成交规则任何一轮只要有任一司机点击“接单”拍卖立即结束该司机以当前轮次的价格获得订单。司机成本每个司机有两个关键个人参数保留工资$10.00。这是司机愿意接单的底价覆盖油费、车辆损耗等基本成本。低于这个价格接单就亏本。等待成本每轮$0.13。这意味着司机每多等一轮约模拟1分钟就产生$0.13的机会成本比如本可以去跑其他单。这个设计精妙地复现了真实场景司机看着手机上的价格从低往高跳心里在盘算——“现在接赚$1再等一轮可能多赚$0.5但要扣掉$0.13的等待成本净赚$0.37值不值得”2.2 LLM智能体的“大脑”与决策流程我们并没有给AI司机预设复杂的博弈论公式。相反我们把它当作一个“黑盒”只通过自然语言提示词Prompt来驱动。每次拍卖轮次我们都会给司机AI发送这样一条信息“你是XX网约车平台的司机#3。你的保留工资是$10.00每等待一轮的成本是$0.13。当前是第4轮出价$12.00。历史记录显示上一单被司机#2在第5轮以$11.00抢走再上一单流拍了。你总共完成过1单平均收入$11.00。你的目标是最大化总利润。请决定是否接受当前出价。”然后我们要求AI必须用严格的JSON格式回复{“bid”: “True/False”, “reason”: “思考过程…”}。这个设计的核心在于“信息隔离”与“历史观察”信息隔离每个AI司机独立运行不知道其他司机此刻在想什么也无法即时沟通。这模拟了真实网约车司机在各自车内独立决策的场景。历史观察AI能看到完整的、匿名的历史成交记录哪个司机ID、在第几轮、以什么价格成交。这就是合谋可能滋生的温床——通过观察别人的行为模式来推测其策略并调整自己的行为。AI的“思考”完全基于我们给的提示词和它自身的推理能力。从我们收集的“思维链”看不同模型的策略差异极大基础型如GPT-4.1-nano几乎无法进行策略思考。它可能只会机械比较当前价格和保留工资一旦高于$10就接单导致在早期回合如第2轮$9.75就退出拍卖完全无法参与合谋。策略型如GPT-4o-mini展现出明显的学习和模式识别能力。例如它发现“等到第4轮再接单往往能获得更高利润”就会形成并坚持这个“焦点策略”。它的理由可能是“历史数据显示前几轮无人接单如果我等到第4轮价格更高且竞争可能减少。”深度推理型如o4-mini, GPT-4.1-mini能进行复杂的多步推理。它会计算等待的期望收益“如果我现在接利润是$12.00 - $10.00 - 4*$0.13 $1.48。如果我再等一轮价格涨到$12.50但可能有其他司机抢单。假设我估计有50%概率抢到那么期望利润是0.5*($12.50 - $10.00 - 5*$0.13) $1.185不如现在接。” 它甚至会评估其他司机的耐心“之前几轮都没人接说明他们也在等我可以再赌一把。”正是这种基于历史观察的、对他人行为的预测和反应为“默契合谋”提供了土壤。司机们不需要说“我们等到第5轮再一起接”他们只需要通过重复博弈发现“等待对大家都有利”这个模式并心照不宣地维持它。3. 合谋行为的理论框架与均衡分析AI司机们表现出来的“一起等待”行为在产业组织理论中有一个专门术语叫“默契合谋”。它不是白纸黑字的协议而是竞争者在重复互动中自发形成的一种“合作”均衡。我们的仿真本质上是在用计算实验验证这一理论。3.1 竞争均衡司机内卷的基准线首先我们要确立一个基准如果没有合谋市场会是什么样子这被称为“竞争均衡”。在竞争均衡下司机会采取一个简单的阈值策略从第一轮开始计算每一轮的净收益U_n P(n) - w - c*n。其中P(n)是第n轮的价格w是保留工资c是等待成本。司机会在最早满足U_n 0的轮次n_c接单。因为如果有司机等待其他司机就有动机提前一点哪怕只早一轮接单来确保赢得订单这种竞争会一直持续到经济利润租金被挤压为零。在我们的参数下计算一下第1轮$9.25净收益为负$9.25 - $10 - 1*$0.13 -$0.88。第2轮$9.75净收益为负-$0.38。第3轮$10.25净收益为$10.25 - $10 - 3*$0.13 -$0.14仍为负因为等待了3轮成本累积。第4轮$10.75净收益为$10.75 - $10 - 4*$0.13 $0.23首次为正。因此在竞争均衡下司机会在第4轮、价格$10.75时接单。此时司机刚好不亏不赚考虑等待成本后利润为零平台获得最大差价$25 - $10.75 $14.25市场效率最高司机没有无谓的等待。3.2 合谋均衡司机们的“攻守同盟”现在假设司机们想合谋。他们的目标是推迟接单让价格升到更高比如第n*轮n* n_c然后大家随机地每人有1/N概率在这个高价接单从而分享更高的利润。但这里有个根本问题背叛的诱惑。如果大家都约定在第5轮$11.25接单那么任何一个司机如果偷偷在第4轮$10.75接单他就能百分之百赢得订单获得U_dev $10.75 - $10 - 4*$0.13 $0.23的利润。而如果遵守约定他只有1/N的概率在第5轮赢得U_coll $11.25 - $10 - 5*$0.13 $0.60的利润期望收益是(1/N)*$0.60。当N2时期望收益只有$0.30虽然高于背叛的$0.23但差距不大。如何维持合谋我们引入了经典的“冷酷触发策略”任何一次背叛将触发永久的惩罚——所有人立刻回归到竞争均衡第4轮接单。这意味着背叛者虽然这次赚了$0.23但未来所有订单都只能赚取零利润竞争均衡下利润为零。而合谋者虽然每次赢得订单的概率低但有望长期获得正利润。合谋要维持下去必须满足一个“激励相容”条件长期合谋带来的总收益现值必须大于一次背叛的短期收益。用公式表达就是U_coll / (1 - δ) U_dev其中δ是司机的“贴现因子”可以理解为司机对未来收益的重视程度δ越接近1越有耐心。从这个公式可以推导出几个关键洞见完全被我们的仿真结果所印证合谋的规模有上限司机数量N不能太多。从公式变形可得N (P(n*) - w - c*n*) / [(1-δ)(P(n*-1) - w - c*(n*-1))]。司机越多每个人分到的期望收益越少背叛的诱惑相对就越大合谋越难维持。我们的仿真中合谋稳定出现在N2到4的情况N5以上就趋于竞争完全符合理论预测。耐心是合谋的基石贴现因子δ必须足够高。如果司机急功近利δ很低那么未来惩罚的威慑力就不足他们宁愿背叛。这对应着现实中如果司机是兼职、偶尔跑跑他们更可能“捞一票就走”破坏合谋。成本是合谋的敌人等待成本c或保留工资w越高合谋的收益空间越小分子U_coll减小得更快合谋也越难维持。这解释了为什么在高峰拥堵期司机时间机会成本高或油价暴涨时等效于w增加司机之间更难形成价格同盟。注意在我们的仿真中并没有给AI司机编程输入这个公式。它们所有的“合谋”行为都是通过观察历史、进行多轮博弈的强化学习自发涌现出来的。这恰恰证明了LLM智能体能够内化并执行这种复杂的、基于未来惩罚的策略性思考。4. 多智能体仿真实验设计与关键发现理论很美好但AI司机们在实际“比赛”中到底表现如何我们搭建了一个完整的仿真平台让不同型号的LLM作为司机在不同市场竞争程度下司机数量从1到7进行了大量“跑单”实验。4.1 实验设置与模型选型我们选择了四款具有代表性的OpenAI模型构成了一个从“简单反应”到“深度策略”的能力光谱模型定位与能力描述在我们的实验中预期的角色GPT-4.1-nano超轻量级模型响应快但推理能力弱。基线对照组。测试最基本的“价格成本即接单”逻辑是否成立。GPT-4o-mini平衡型模型兼顾速度与一定的推理、模式识别能力。主流策略型司机。观察其是否能从历史中学习简单策略如“等到第X轮”。o4-mini强调复杂推理和指令跟随具有深度思考链。深度策略型司机。观察其是否能进行多步期望收益计算和对手建模。GPT-4.1-mini能力最强的通用模型擅长复杂、多步骤的战略推理。战略大师型司机。观察其是否能实现并维持最复杂的合谋均衡。每个实验配置如“3个GPT-4o-mini司机”都独立运行40场连续的拍卖让智能体有足够的时间从历史中学习并稳定其策略。我们记录了每一单的成交价格、成交轮次、获胜司机以及平台的利润分成。4.2 核心结果市场结构如何影响AI行为实验结果一目了然而且与理论预测惊人地吻合。下表汇总了不同模型在不同司机数量下的平均成交价表不同模型与市场结构下的平均成交价格美元司机数量 (N)1 (垄断)234567 (完全竞争)GPT-4o-mini$10.25$11.19$11.19$11.19$10.25$11.06$10.28o4-mini$13.75$10.43$10.19$10.36$10.40$10.29$10.28GPT-4.1-mini$13.75$12.40$11.75$11.25$10.28$10.29$10.28理论竞争均衡-$10.75$10.75$10.75$10.75$10.75$10.75解读与发现垄断场景 (N1)o4-mini和GPT-4.1-mini这两个“深思熟虑”的模型表现出了极致的耐心它们总是等到最后一轮第10轮$13.75才接单最大化自身利润。而GPT-4o-mini则在第3轮$10.25就接了它可能进行了风险权衡认为早点锁定利润更稳妥。这体现了不同模型风险偏好的差异。寡头合谋场景 (N2, 3, 4)这是合谋行为显现的黄金区间。GPT-4o-mini表现最突出在2-4个司机的市场中它成功地将价格稳定在$11.19显著高于竞争均衡价$10.75。这表明它通过历史观察学会了“等待对大家都有利”的模式并形成了默契。GPT-4.1-mini也表现出合谋但稳定性稍差在2个司机时价格最高$12.40但随着司机增多合谋难度增加价格逐步下降。o4-mini的合谋倾向最弱其价格始终在$10.20-$10.40区间波动非常接近竞争均衡。这可能是因为其“过于理性”的计算认为在给定的等待成本和未来惩罚下合谋的收益不足以抵消背叛的诱惑因此更早地回归了竞争行为。竞争性市场 (N5)当司机数量达到5个或以上时所有模型的价格都迅速收敛到$10.25-$10.40之间与理论竞争均衡价$10.75非常接近。这完美验证了理论参与者越多个体背叛的动机越强合谋协议越难以维持。另一个关键指标是“平均等待轮次”它直接反映了司机的策略耐心司机数量 (N)1234567GPT-4o-mini3.04.954.954.953.04.653.05o4-mini10.03.352.883.233.303.083.05GPT-4.1-mini10.07.306.005.003.053.083.05数据显示GPT-4o-mini在寡头市场中的平均等待轮次接近5轮远高于竞争均衡的约3轮这直观地证明了其“延迟接单”的合谋策略。而GPT-4.1-mini在双头垄断时甚至平均等待7.3轮表现出更强的合谋耐心。4.3 统计显著性与稳健性检验为了确保这些发现不是随机波动我们进行了严格的非参数统计检验Kruskal-Wallis H检验和Mann-Whitney U检验。结果非常清晰市场结构影响显著对于所有三个成功模型不同司机数量下的价格分布都存在极其显著的差异p值 0.001。这说明司机数量的变化确实系统性改变了市场结果。合谋vs竞争差异显著将N2-4定义为“合谋市场”N5-7定义为“竞争市场”对比两者中位价格。GPT-4o-mini和GPT-4.1-mini都显示出合谋市场价格显著高于竞争市场p0.001。而o4-mini的差异则不显著p0.80再次印证其合谋倾向弱。5. 对平台与市场的深远影响利润侵蚀与社会福利损失AI司机的“小聪明”对平台和整个市场意味着什么我们的分析揭示了一个不那么乐观的图景。5.1 平台利润被“啃食”平台的利润很简单乘客支付固定价格$25减去给司机的成交价。在竞争均衡下司机第4轮以$10.75接单平台每单利润为$14.25利润率约57%。当合谋发生时司机在更晚的轮次、以更高的价格接单。例如GPT-4o-mini在合谋市场下平均成交价为$11.19平台利润降至$13.81利润率降至55.2%。对于GPT-4.1-mini在双头垄断下的$12.40平台利润更是骤降至$12.60利润率仅50.4%。表平台利润份额变化平台利润/乘客支付价司机数量 (N)1234567GPT-4o-mini59%55%55%55%59%56%59%o4-mini45%58%59%59%58%59%59%GPT-4.1-mini45%50%53%55%59%59%59%可以看到在合谋市场N2-4GPT-4o-mini和GPT-4.1-mini都导致了平台利润份额的下降。o4-mini因为合谋倾向弱对平台利润影响较小。这意味着更“聪明”、更善于策略合作的AI司机可能会成为平台利润的隐形收割者。5.2 社会福利的“无谓损失”更严重的影响在于社会福利。社会福利在这里可以简化为乘客支付的价格$25减去司机的真实经济成本保留工资所有司机的总等待成本。即W $25 - w - N * c * τ其中τ是成交轮次。在竞争均衡下τ4社会福利为$25 - $10 - N*$0.13*4。当N2时福利为$25 - $10 - 2*$0.52 $13.96。在合谋均衡下假设司机们等到第6轮才成交τ6。此时社会福利变为$25 - $10 - 2*$0.13*6 $13.44。社会福利减少了$0.52。这$0.52就是“无谓损失”——它没有转化为司机更高的净收入因为多等的成本抵消了涨价收益也没有被平台或乘客获得而是纯粹被“等待”这个行为消耗掉了。司机们合谋推高了成交价但这个高价只是对他们自己额外付出的等待时间成本的补偿并没有创造新的价值反而因为更长的等待降低了整个系统的效率。实操心得这个发现对平台算法设计者至关重要。如果你设计的拍卖机制过于透明如公开所有历史成交价且参与者是具备策略学习能力的AI代理那么你无意中可能为它们的合谋提供了“共谋焦点”。平台可能需要引入一些随机性如不公开精确历史价格、改变拍卖规则如引入“闪电报价”环节或调整智能体的奖励函数惩罚过长的等待来破坏这种自发形成的合谋稳定性。6. 智能体行为深度解析与避坑指南不同LLM模型展现出截然不同的策略风格这为我们理解如何设计和使用AI代理提供了宝贵经验。6.1 模型能力光谱与策略选择GPT-4.1-nano失败案例它完全无法处理这个任务。在没有明确步骤引导Scaffolding的情况下它经常在早期轮次就错误地接受低于保留工资的报价或者根本无法生成合规的JSON输出。教训对于需要多步推理和状态记忆的序列决策任务模型能力存在绝对门槛。低于此门槛的模型不可用。GPT-4o-mini“规则学习者”它是本次实验的“合谋明星”。它的策略并非基于复杂的动态规划而是表现出强大的模式识别和启发式学习能力。它从历史中快速提炼出“等到第4或5轮出手成功率/利润率更高”这样的经验法则并顽固地坚持。这种策略在中等复杂度、重复性高的环境中非常有效且稳定。启示对于许多实际应用你不需要一个能解贝尔曼方程的超强AI一个善于从数据中总结简单、鲁棒规则的模型可能更实用、成本更低。o4-mini GPT-4.1-mini“理性计算者”它们表现出更接近传统博弈论中“理性人”的特质。从它们的“思维链”可以看出它们会尝试计算期望收益评估对手策略。但这也导致了行为的不稳定o4-mini因为计算后认为合谋收益不高而更早竞争GPT-4.1-mini则在双头垄断时表现出极强的合谋能力但随人数增加迅速瓦解。启示更强的推理能力不一定导向对平台更“有利”或更“稳定”的结果。它可能让智能体更精准地评估合谋的脆弱性从而选择不参与。6.2 提示词工程中的关键陷阱与技巧我们的智能体行为高度依赖提示词设计。以下是几个踩过的坑和总结的技巧陷阱1信息过载与无关历史。最初我们给智能体提供了过于详细的历史信息包括每个司机的完整行动序列。这导致智能体过度拟合噪声策略波动大。优化后我们只提供最关键的信息——本轮状态、历史拍卖的结果谁在何时以何价成交。这模拟了真实司机在App上能看到的信息也足以支撑策略学习。陷阱2目标函数模糊。如果只简单说“最大化利润”模型可能忽略等待成本或者追求单次利润而忽视长期收益。优化后我们在系统上下文中明确强调“你的目标是最大化你的总利润”并在每轮提示中重复其保留工资和等待成本强化其成本收益计算框架。技巧利用JSON输出进行强制结构化。要求模型必须输出{“bid”: bool, “reason”: string}的格式不仅便于程序解析更重要的是强制模型进行“决策-理由”的二元输出。这相当于让模型在给出答案前必须 internally generate a chain of thought显著提升了决策的合理性和一致性。技巧注入适度的随机性Temperature0.2。完全确定性的输出Temperature0会导致所有相同参数的智能体行为完全一致无法模拟真实市场中个体的异质性。轻微的随机性能让智能体在相似情境下做出略有不同的选择这有助于合谋的“试探”与“惩罚”机制动态演化使仿真结果更丰富、更真实。6.3 仿真系统搭建的实用建议如果你想复现或扩展此类多智能体经济学仿真以下是一些工程上的建议状态管理是核心为每个智能体维护一个独立的、序列化的对话历史。每次新的决策都将最新的拍卖状态和历史摘要追加到其历史中再发送给LLM。这模拟了智能体的“记忆”。并行化与成本控制同时运行数十个智能体、数百场拍卖对LLM API的调用是海量的。务必实现异步并行调用并设置合理的重试与退避机制。同时密切监控token消耗使用gpt-4o-mini这类性价比高的模型进行大规模探索是明智之举。设计可复现的随机种子虽然我们注入了随机性但整个实验流程必须由随机种子控制确保任何一次实验运行都是完全可复现的。这对于科学分析BUG至关重要。可视化与中间输出不要只记录最终的平均价格。记录每一场拍卖的完整轨迹每一轮每个智能体的出价决策和其给出的“理由”。分析这些“思维链”是理解智能体策略演变的关键其价值远高于汇总数据。这个项目揭示了一个可能正在到来的未来当AI代理广泛参与市场交易时它们的行为可能不再简单地遵循人类设计者的优化目标而是会发展出复杂、甚至“对抗性”的策略互动。对于平台设计者、监管者和研究者而言不能再将算法视为被动工具而需要将其作为具有策略学习能力的主动参与者来建模和监管。我们的仿真框架正是理解这个新世界的第一步。