这项由Salesforce人工智能研究院主导的研究以预印本形式于2026年4月18日发布论文编号为arXiv:2604.16830。对AI系统的可信度感兴趣的读者可通过该编号在arXiv平台找到完整论文。当你向一个AI助手提问时它除了给出答案通常还会告诉你它有多大把握。有的AI会说我有90%的把握认为答案是X有的则以更含蓄的方式表达自信。然而Salesforce研究院的这项研究揭示了一个令人不安的事实这些AI说出来的把握往往是一种幻觉。数学家陶哲轩曾在《大西洋》杂志的一篇文章中感叹AI工具无法准确评估自己的自信程度这大大降低了它们的实用性。我们希望AI能更诚实。这句话精准描述了今天AI领域的一个核心困境——AI越来越聪明却没有随之变得越来越诚实。研究团队把这个现象称为误校正的规模定律意思是当你让AI变得更强大时它会系统性地、几乎必然地变得过度自信。不管是GPT、Claude、Gemini这样的顶尖商业产品还是DeepSeek、Kimi这样的开源模型都无一例外地陷入了这个陷阱。更令人担忧的是把模型做得更大、更强根本解决不了这个问题。为了破解这个困局研究团队提出了一个名为校准感知在线策略蒸馏CaOPD的新方法并用实验证明了一件以前很多人觉得不可能的事让AI保持能力的同时变得更诚实这两件事并不矛盾。一、AI为什么会说大话读懂特权信息的陷阱要理解这个问题先设想一个场景一名学生正在考试考场里有两个角色——一个开卷的监考老师和一个闭卷的学生。老师可以翻阅所有参考书看到标准答案学生只能凭自己的记忆作答。现在如果让学生去模仿老师的语气和自信程度会发生什么学生会学到老师那种我确信无疑的口吻但他并没有老师手上的那些参考书。一旦上了真正的考场他就会用同样自信的语气说出很多错误答案。这正是当前AI训练方式的核心问题所在。训练大型语言模型时最流行的方法叫做在线策略蒸馏On-Policy Distillation简称OPD。这种方法的运作机制是这样的同一个模型扮演两个角色一个是老师角色可以看到特殊的辅助信息比如正确答案、专家示范或者来自外部验证系统的反馈另一个是学生角色只能看到用户提出的问题就像真实使用场景中的AI一样。训练过程中学生角色努力学习老师角色的回答方式包括措辞、逻辑推理以及对自己有多大把握的表达。问题就在这里。老师角色因为看到了正确答案会用非常确定的方式表达学生角色把这种确定的口吻学到骨子里但它在真实使用时并没有那些辅助信息。更糟糕的是训练数据通常都是成功的、高质量的示范那些失败的、不确定的案例几乎从不出现。这就像一个学生只见过老师做题全对的样子从来没见过老师犯错或说我不确定——它当然会以为自信就是应有的状态。研究团队用三条数学命题严格证明了这个过程必然导致过度自信逐一追踪了从训练到推理过程中信心是如何被系统性扭曲的。第一条命题揭示了不可弥合的信息鸿沟老师角色看到正确答案后所表达的信心从数学上就不可能被没有看到答案的学生角色完整复制。即便学生做得再好它能表达的最合理的信心也只是基于自身能力的客观胜率而不是老师那种因为看了答案所以笃定的信心。强行让学生模仿老师的信心必然引入系统性偏差。第二条命题解释了熵塌缩现象当老师有了辅助信息它的推理路径会变得非常确定不确定性大幅降低。训练过程强迫学生用自己的概率分布去匹配老师的高度确定分布这就像用一把扇形的羽毛去摹仿一把锋利的刀——学生为了匹配只能把自己的分布也人为地压缩成刀尖形状即使它内心其实有很多不确定性。第三条命题揭示了乐观偏差由于训练数据通常是成功案例学生只学过赢家的语气。当它面对困难的、自己实际上回答不好的问题时它没有学过如何表达怀疑只会继续沿用那套自信满满的口吻。三条命题加在一起构成了一幅完整的图景每一步都在系统性地、不可避免地推着AI走向过度自信。二、规模越大问题越严重——数据说话研究团队没有停留在理论层面而是拿出了大量实验数据来验证这个问题的普遍性。他们对12个顶尖的大型语言模型进行了评估其中包括来自OpenAI的GPT系列、Anthropic的Claude系列、Google的Gemini系列以及DeepSeek、Kimi、Qwen等开源模型。评测域是科学问答题要求模型在给出答案的同时说出自己有多大把握。结果令人警觉。在精度准确回答问题的比例和信心模型声称自己有多大把握之间几乎所有模型都存在巨大的差距而且差距的方向几乎清一色是信心远远超过实际准确率。Gemini-2.5-Flash的平均信心接近1.0即100%确定但实际准确率只有57.6%DeepSeek-V3.1的平均信心同样高达1.0实际准确率56.7%。这意味着这些模型在大约一半的题目上都说错了却声称自己100%确定。更耐人寻味的是把模型参数规模从小做到大这个问题并不会自然消失。研究团队对Qwen3系列从0.6B参数到32B参数的所有版本进行了同样的测试发现在标准训练方式下不管模型有多大平均信心都卡在接近1.0的位置纹丝不动。换句话说更聪明的模型答对的题目确实更多但它嘴上表达出来的确定程度跟小模型一样不靠谱。把规模当作解药完全没用。现有的尝试也让人失望。研究团队注意到有些研究者曾尝试通过强化学习来惩罚过度自信的模型比如RLCR和CAR这类方法——如果模型说得太确定但又答错了就扣分。这种方法确实能让模型的信心数值往下降但代价惨重模型的答题准确率也跟着大幅下滑。在科学问答任务中使用RLCR的模型准确率从80.6%跌到65.8%使用CAR的模型跌至61.6%。这就像用一种药治好了说大话的毛病却同时把做对事情的能力也损害了。鱼和熊掌真的难以兼得——至少在之前的方法里是这样。三、CaOPD的破局之道把教什么和有多大把握彻底分开Salesforce的研究团队认为之前的方法走错了方向。强化学习惩罚方案治标不治本它试图在训练已经完成之后再去修正信心却忽视了问题的根源——训练信号本身就是错的。研究团队的核心洞察是AI回答问题的能力和对自己有多大把握的判断本质上是两件事应该分别学习而不能混在一起。这就像一个厨师做出好菜的技术和准确预判今天这道菜会不会好吃的判断力是两种不同的能力。当前的训练方式把两者捆绑在一起导致任何改变信心的操作都会连带损伤能力。CaOPD的解决方案优雅而简洁分三步走。第一步估算真实胜率。在训练时对于每一道题让模型用它自己的能力不看任何辅助信息独立尝试多次比如尝试8次。然后用一个客观的评判标准检查每次尝试是否正确用正确次数除以总次数得到一个经验性的成功率。比如8次尝试中答对了5次胜率就是5/80.625。这个数字代表的是模型在真实使用时、不借助任何外部信息的条件下的实际水平是诚实的、基于现实的估计。第二步替换信心标签。在准备训练数据时把模型原本会表达的信心数值替换成刚才计算出来的经验胜率。比如某道题上如果没有CaOPD模型会被训练成说我有1.0100%的把握有了CaOPD这个标签被改成0.625。同时给老师角色提供的辅助信息里信心部分也做同样的替换。这样无论是学生学习的目标还是老师提供的参考在信心这个维度上都变成了符合实际的数字。第三步照常进行推理能力的蒸馏。对于如何推理、如何解题这部分内容CaOPD完全不作改动老老实实让学生跟着老师学。这一步和原来的训练方式没有任何区别。通过这三步CaOPD实现了一个精妙的解耦推理能力照样从老师那里高效学习而信心表达则独立地锚定在模型自身真实能力上。两件事各司其职互不干扰。研究团队还指出了一个实际操作层面的好消息在SDPO这种流行的训练框架下第一步所需的多次尝试在训练流程中本来就会做CaOPD只是把这些已有的尝试结果多利用了一次几乎不增加额外的计算成本。在训练过程的计算开销上CaOPD和原来的方法几乎没有差别每个训练步骤的耗时基本相同。四、实验结果能力没掉信心终于诚实了研究团队在两个截然不同的任务场景上测试了CaOPD科学问答化学题和工具使用让AI调用API接口完成任务。测试的基础模型是Qwen3-8B和Olmo-3-7B-Instruct这两个主流开源模型。在最直观的过度自信程度对比上结果非常清晰。以Qwen3-8B在工具使用任务上为例标准的SDFT训练让模型的平均信心飙到0.999而实际准确率只有67.6%——这意味着模型几乎每道题都声称100%有把握却大约有三分之一的时间是错的。CaOPD处理后模型的平均信心降至0.699实际准确率反而提升到70.6%。信心和实际能力之间的差距研究团队称之为过度自信缺口从32%压缩到了-0.7%几乎完美对齐。在校准误差ECE数值越低越好和Brier得分综合评估信心准确性的指标越低越好这两个专业指标上CaOPD在几乎所有测试场景中都实现了大幅改善。以Qwen3-8B在科学问答任务上为例校准误差从SDFT的0.486降至0.266Brier得分从0.477降至0.281。更关键的是准确率不降反升从49.1%微升到50%。研究团队还特别关注了一个叫做严格配对排名SPR的指标这个指标衡量的是当模型回答正确时它给出的信心是否严格高于它回答错误时给出的信心这是信心真正有用的关键——如果AI说高信心但其实答对答错都差不多那这个信心就是无效信息。在工具使用任务上标准SDFT的SPR惨不忍睹只有0.085意味着模型几乎没有能力区分自己答对还是答错——因为它对什么都给出了接近1.0的信心。CaOPD把这个指标提升到0.555模型终于开始用更高的信心对应正确答案、更低的信心对应错误答案了。与之形成对比的是强化学习惩罚类方法RLCR和CAR的表现。这些方法确实也能把信心压下去但代价是准确率的大幅下滑印证了研究团队的判断用惩罚信心的方式治过度自信必然伤害到解题能力。CaOPD是目前唯一一种在改善信心同时还保住甚至提升了能力的方案。五、跨领域、跨时间的考验诚实到底有没有泛化能力单任务上表现好不代表方法真的可靠。研究团队进一步设计了两种更严苛的测试。第一种是跨领域迁移测试把模型在工具使用任务上训练好然后直接拿去测科学问答——一个它从没见过的任务类型。标准SDFT方法在这种情况下彻底崩溃尽管答题准确率还能维持在36.7%校准误差却飙升至0.599配对排名能力也大幅下降。CaOPD方法的校准误差维持在0.358降幅超过40%信心分布依然是相对合理的。原因在于CaOPD训练的模型学到的不是在化学题上如何表达信心或在API调用上如何表达信心而是一种更根本的能力把自己内心的不确定感准确地映射到一个数字上。这是一个通用技能迁移到新领域时不需要重新学习。第二种是持续学习不遗忘测试先在工具使用任务上训练再在科学问答上继续训练看看后者会不会把前者学到的能力破坏掉。以前的研究证明SDFT能有效防止遗忘做题能力但Salesforce的研究发现了一个新问题即使做题能力保住了信心校准能力却会被彻底遗忘。SDFT持续学习后工具使用任务上的配对排名能力从0.085直接跌到0.000——完全失去了区分对错的信心分辨力。CaOPD持续学习后配对排名仍维持在0.510校准误差也从0.513压缩到0.253信心校准和做题能力同时被保留了下来。这个发现被研究团队称为校准遗忘现象是之前没有人注意到的新问题不是所有遗忘都是能力遗忘信心的诚实程度也会随着持续学习而流失而且比能力流失更隐蔽、更难察觉。CaOPD提供了一种内置的保护机制因为每次训练时信心都被重新锚定到经验胜率持续更新的训练数据天然地防止了校准的退化。六、规模之战从0.6B到32B诚实真的可以随能力一起成长研究团队最后的实验回答了一个终极问题如果用更大的模型同时用CaOPD训练会发生什么在Qwen3系列从0.6B到32B的六个规模上研究团队同时运行了标准SDFT训练和CaOPD训练并把结果可视化在同一张图上。标准SDFT的结果形成了一条接近水平的直线贴近信心1.0的天花板不管模型大小信心都饱和在顶端。CaOPD的结果则完全不同随着模型规模增大、答题准确率随之提升模型表达出来的信心也等比例地在上升最终信心和准确率指向同一个位置。在可靠性1减去Brier得分和配对排名两个指标上CaOPD在每个参数规模上都严格优于SDFT而且随着规模增大两者之间的优势以稳定的方式扩大。这组结果在概念上具有重要意义它打破了信心只能靠缩减能力来换取的假设证明了能力提升和信心诚实可以在同一个训练框架内同步实现。一个经过CaOPD训练的8B模型在可靠性排名上能够接近甚至超过许多规模大得多的顶尖商业模型而后者每一个都是聪明但爱吹牛的代表。---归根结底这项研究想告诉我们的核心道理并不复杂一个人知道多少和他对自己知道多少有多少把握是两件不同的事。一个真正可信的朋友不仅要说对还要在说错的时候承认自己没把握。Salesforce的研究团队用数学和实验证明这两件事在AI身上也可以彼此独立地学习和改进。对于普通用户而言这意味着未来的AI助手或许真的能给你一个有意义的自信程度参考——当它说我有80%的把握那个数字真的代表它在类似问题上大约能答对八成而不只是一句空话。当它说我不太确定那也许是真的信号而不是客套的谦辞。对于AI开发者和企业而言这项研究提出了一个值得认真对待的警示当你在追求更高能力分数的同时你可能正在系统性地破坏模型的诚实性而你可能甚至没有意识到这一点。校准不是锦上添花的附加功能而是可信AI的基础设施。对于关心AI安全的所有人而言一个总是声称百分百确定的AI在自主决策场景下是危险的。而一个能准确表达我对这件事没把握的AI则天然地留出了人类干预和纠错的空间。从这个角度来看让AI学会诚实地说我不确定或许是比让AI变得更强大更重要的事情。有兴趣深入了解完整技术细节的读者可以通过论文编号arXiv:2604.16830在arXiv平台查阅这篇由Salesforce AI研究院发布的完整论文。---QAQ1在线策略蒸馏OPD训练出来的AI为什么会过度自信AOPD训练时教师角色能看到正确答案等辅助信息因此表达出极高的确定性。学生角色通过学习模仿了这种自信口吻但真实使用时它没有那些辅助信息。更糟的是训练数据几乎全是成功案例模型从未学过如何表达我不确定最终形成系统性的过度自信模型规模再大也无法自然解决这个问题。Q2CaOPD方法是如何在不损害答题能力的情况下改善AI信心准确性的ACaOPD的核心是把解题能力学习和信心表达学习彻底分开。训练时先让模型独立尝试多次计算出真实成功率作为信心目标然后把这个实际数字替换掉原本偏高的信心标签再正常进行推理能力的学习。能力部分照常从教师角色的高质量示范中学习信心部分则被锚定在模型自身的真实水平上两者互不干扰。Q3CaOPD训练的模型在遇到没见过的新任务时信心校准能力还能保持吗A根据实验结果CaOPD学到的是一种通用的把内心不确定感准确映射为数字的能力而非某个特定领域的信心表达模式因此在跨域测试中保持了相对良好的校准性能校准误差降幅超过40%。在持续学习场景中CaOPD也能防止信心校准能力随新任务训练而退化这是标准方法做不到的。