约翰斯·霍普金斯大学让AI“查阅法规“而非死记硬背,准确率飙升30%
这项由约翰斯·霍普金斯大学与法国巴黎理工学院电信学院联合开展的研究于2026年6月以预印本形式发布论文编号为arXiv:2606.05009。研究聚焦于一个乍听之下颇为法律感的问题当你把一部复杂的法律法规丢给AI让它帮你算税、判断移民资格、或者弄清楚航空公司的行李规定时AI到底应该把整部法规塞进脑袋一次性读完还是应该像一个真正的律师那样随时翻查相关条文两种策略的差距远比你以为的要大得多。一、一个熟悉却被忽视的难题法规太长AI记不住关键的那一条假设你是一名税务律师桌上摆着一份厚达数百页的美国联邦税法。你的客户阿丽斯问你她2017年和丈夫共同申报年收入36,266美元要缴多少税一个经验老道的律师不会把整部税法从头背到尾而是会直接翻到适用的条款——比如第1条d款关于已婚分别申报的税率表再去查第63条关于应税收入的定义最后用计算器算出答案。这个先找条款再推理的过程正是人类处理复杂规则体系的自然方式。然而现有的AI系统在处理这类问题时走的却是一条截然不同的路把整部法规、案件事实和问题全部塞进一个超长的提示词让模型在一口气中完成所有工作。这种方式被研究团队称为直接推理。问题在于法规文本往往极其冗长且互相交叉引用大量条款对于当前具体问题毫不相关模型很容易在海量文本中找不到真正关键的那几句话就像你被要求在一座图书馆里找一本特定的书但不能自由行走只能从入口一直走到出口希望书会自然出现在你面前。正因如此研究团队提出了一套全新的框架名为规范性主动推理Deontic Agentic Reasoning简称DAR。核心思路很简单不再把法规文本塞进AI的脑子而是把它放在一个文件夹里让AI像真正的律师一样根据需要随时去翻查。二、两种截然不同的工作方式一次性阅读 vs. 按需查阅研究团队用一个直观的对比来说明两种方式的本质区别。在直接推理模式下模型收到的是一个巨大的提示词里面同时包含完整的法规文本、案件事实和问题模型需要在一次推理中完成阅读理解 逻辑推理 数值计算的全部工作。这就好比让一个学生在闭卷考试中凭记忆应对一道涉及数百条规则的综合题。在DAR模式下情况完全不同。法规文本被存放为一个独立的文件statute.txt模型只接收案件事实和问题。当模型需要查阅某个条款时它可以主动发出指令——比如用grep命令搜索§63找到应税收入的定义用sed命令读取文件的特定行或者用cat命令查看某一章节。每一次查阅的结果都会被追加到模型的工作记忆中供后续推理使用。当需要进行数值计算时模型还可以直接运行Python代码就像一个律师在旁边开着计算器一样。这种设计的本质是将查阅法规和推理判断这两个任务解耦。模型不再需要在一片汪洋的文本中碰运气而是可以精准地、按需地提取自己需要的信息。研究团队借鉴了主动语料库交互Direct Corpus Interaction的思路——这一方法此前已在事实检索任务中被证明有效但在以推理为核心的规范性任务中是否同样有效此前从未有人系统验证过。三、测试场地与参赛选手四类任务九款模型三种比较框架为了让实验结论足够可信研究团队选择了DeonticBench这个专门为规范性推理设计的评测基准涵盖四类难度各异的任务。第一类是SARA数值任务要求模型根据美国联邦税法计算具体的税款金额评分标准是精确匹配的准确率容不得半点误差。第二类是SARA二分类任务要求模型判断某一法律主张是否成立用宏平均F1值衡量。第三类是航空行李政策任务要求模型根据各航空公司的行李收费规定判断特定情境下应收取的费用同样以准确率计分。第四类是USCIS移民行政任务要求模型预测移民上诉案件的最终结果用宏平均F1值衡量。参与测试的模型共九款横跨开源与闭源两大阵营。开源阵营包括来自阿里巴巴的Qwen3.5系列三款参数量分别为35B、122B、397B、Qwen3-Coder-480B、Qwen3-235B以及月之暗面的Kimi K2。闭源阵营则包括OpenAI的GPT-5.1和GPT-5.2推理努力程度设置为无以及Anthropic的Claude Sonnet 4.5。比较框架共三种直接推理基线、Terminus-2一个基础的终端型主动框架让模型在沙箱环境中通过交互式终端操作文件、以及Terminus-KIRA在Terminus-2基础上改进的增强版框架专门针对模型常见的几种失败模式进行了修复包括提交不完整工作、在任务未完成时错误地确认完成以及在获得新信息后无法调整计划等问题。为了确保公平每道题有10分钟的时间预算超时、解析失败或框架运行错误的试验均计为答错。四、顶级模型的逆袭框架加持下准确率最高飙升30个百分点实验结果中最引人注目的发现来自三款闭源顶级模型在数值任务上的表现变化。以GPT-5.2为例在直接推理模式下它在SARA数值任务上的准确率仅有30%。换上Terminus-2框架后这一数字跳升至51%。而在Terminus-KIRA框架下它进一步攀升到60%整整翻了一倍。Claude Sonnet 4.5的轨迹同样令人印象深刻直接推理下36%Terminus-KIRA下54%涨幅接近20个百分点。GPT-5.1本身基础就较强直接推理54%在Terminus-KIRA下进一步升至69%。航空行李任务则呈现出另一番景象。GPT-5.1在直接推理下已经表现出色86%框架加持后依然保持在86%到89%的高位可以说近乎饱和。GPT-5.2则从直接推理下的2%几乎完全失败在Terminus-KIRA下跃升至36%这个涨幅简直是天壤之别。在分类任务上顶级模型的表现也整体呈上升趋势。比如在SARA二分类任务中Qwen3.5-397B开源中最强的一款在Terminus-KIRA下从78%提升到91%Kimi K2从68%提升到89%均创下各自的最高分。研究团队用被误管的天才假说来解释这一现象这些顶级模型其实具备足够的法规阅读能力只是在一次性塞入大量文本的传统模式下这种能力无法得到充分发挥。框架的作用正是让它们能够以自己最擅长的方式工作——主动查阅而非被动接收。五、开源模型的崩塌框架反而成了加速错误的催化剂然而同样的框架套在开源模型身上结果几乎完全相反。Qwen3.5-35B在直接推理下的SARA数值准确率是34%放进Terminus-2后降到23%进入Terminus-KIRA后更是跌至11%比起初下降了超过20个百分点。Qwen3.5-122B的情况类似直接推理37%Terminus-2下20%Terminus-KIRA下仍然是20%没有任何改善。航空行李任务更是一场灾难。几乎所有开源模型在直接推理下都有一些非零的基础表现比如Qwen3.5-35B有14%Qwen3.5-122B有15%但一旦进入Terminus-2或Terminus-KIRA准确率几乎全部归零。Qwen3-Coder-480B、Qwen3-235B、Kimi K2在这两个框架下的航空任务准确率均为0或接近0。为什么会这样研究团队给出的解释是框架为模型提供了多轮交互的机会但能否善用这个机会取决于模型是否具备足够的判断力。对于顶级模型而言多轮交互意味着能纠错、能精准检索对于较弱的模型而言多轮交互却变成了一种信心放大器——模型会在错误的推理路径上越走越深用更多的文字和更多的步骤坚定地得出同一个错误答案而不是聪明地及时叫停。这一现象在token消耗数据上得到了直观印证。在Terminus-2框架下Qwen3.5-122B平均每道题消耗40.1万个tokenQwen3-235B消耗30.3万个。相比之下GPT-5.1平均只消耗5.5万个GPT-5.2消耗3.1万个——开源模型的消耗量是顶级闭源模型的4倍以上。用更多的计算换来更差的答案这恰恰是框架放大能力这一论点的最有力佐证。六、三款额外框架与两种特殊方案的测试除了Terminus-2和Terminus-KIRA研究团队还补充测试了Claude Code和Codex CLI这两款框架以及一种被称为递归语言模型Recursive Language Models简称RLM的特殊架构。Claude Code的表现出乎意料地给力尤其是对开源模型而言。在Qwen系列模型中Claude Code在SARA数值任务上的表现有三款模型都是所有框架中最好的Qwen3.5-397B是例外它在Terminus-KIRA下更强。更关键的是Claude Code是唯一能让开源模型在航空行李任务上恢复一定准确率的框架——Qwen3.5-35B、122B、397B、Coder-480B在Claude Code下的航空准确率分别为8.8%、11.3%、10%、5%虽然依然偏低但至少不是零。然而即便如此直接推理仍然是许多弱模型在部分任务上的最强基线Claude Code并没有对所有情况都带来提升。Codex CLI的表现则比较平淡。对大多数模型来说它的SARA数值准确率低于其他可用框架航空任务上开源模型同样接近归零。研究团队将其解读为Codex在数值任务上并没有在基础模型之上增加太多结构行为上和直接推理差距不大。递归语言模型的测试结果则有些出人意料地令人失望。这种架构由一个监督者模型和一个工人模型组成两者可以是同一个模型通过最多10轮迭代、50次工人调用来协作完成任务。测试结果显示RLM对几乎所有模型的SARA数值和航空任务都造成了严重拖累。以GPT-5.1为例直接推理下航空准确率86%、Terminus-KIRA下89%但在RLM下骤降至12.5%SARA数值则从69%跌至11%。Qwen3-Coder-480B呈现出完全相同的崩溃模式。唯一表现相对稳健的是SARA二分类任务GPT-5.1在RLM下的F1值68.3%与直接推理70%相差不大Qwen3-Coder-480B甚至略有提升从59.1%升至69.7%。七、错误分析超时是真正的元凶而非模型本身研究团队对所有失败案例进行了细致的分类统计将错误分为三种超时模型在10分钟内未能给出答案、运行时错误框架自身出现故障和解析失败模型输出格式不符合要求。统计结果揭示了一个有趣的规律闭源顶级模型在所有三个框架下的综合错误率只有0.7%几乎没有运行时错误或解析失败仅有极少数超时发生在Terminus-KIRA框架下。相比之下开源模型的综合错误率高达12.1%是闭源模型的约17倍。在这些错误中超时占了绝大多数10.6%解析失败次之1.5%运行时错误几乎可以忽略不计。更值得关注的是错误率随框架复杂度的增加而显著上升。Terminus-2框架下开源模型的错误率为3.6%Codex CLI下升至11.8%Terminus-KIRA下则飙升至27.8%。这意味着框架越复杂、交互轮次越多开源模型就越容易陷入无止境的循环而超时。研究团队的结论是开源模型表现不稳定的根本原因是它们的推理速度较慢、生成文本较长导致频繁超出时间限制而非框架本身或模型架构的根本性缺陷。八、研究的局限与未来的方向研究团队对自身工作的局限性保持了充分的清醒认识。在规模上当前的DAR方案把整部法规存放为单一文件依赖模型通过grep和sed等工具自行导航。对于DeonticBench中的法规而言这是可行的但面对真正庞大的规则体系——比如完整的美国《国内税收法典》或多司法管辖区的综合监管文件——即便是顶级模型也需要翻阅大量文件内容才能定位相关条款消耗极多的token。一个更具扩展性的设计应该将DAR与高效的检索系统结合起来比如分层法规查找或学习型章节级检索在主动推理开始之前就先提取出相关规则集。在覆盖范围上所有实验都基于DeonticBench这一个基准涵盖美国联邦税法、移民行政和航空行李政策三个领域。真实世界的规范性推理远不止于此研究结论的普适性需要在更广泛的规则推理基准上加以验证。在框架设计上研究评测的四个框架都是为通用主动任务设计的并没有针对法规推理进行专门优化。一个专门为规范性推理设计的框架——比如内置条款感知导航功能或自动交叉引用工具——可能会为弱模型带来截然不同的结果。Meta-Harness这类通过外层搜索自动发现任务特定框架的元框架或许是探索这一方向的一条可行路径。此外实验中GPT-5.1和GPT-5.2的推理努力程度被设置为无更高的推理努力设置可能会显著改变顶级模型的表现从而影响顶级与开源模型之间差距的大小。归根结底这项研究告诉我们的核心信息其实并不复杂给AI一部法规让它查阅比让它背诵更聪明——但前提是这个AI本身足够聪明知道怎么查、查什么、什么时候停下来。对于今天最顶级的闭源模型这套方案能带来真实可观的提升对于能力稍弱的开源模型同样的工具却可能适得其反让它们用更多时间、更多算力更自信地犯同样的错误。这种能力门槛效应对所有计划在高风险领域税务、法律、移民部署AI系统的从业者来说都是一个值得认真对待的警示工具增强了能力但无法创造能力。无论是否配备了主动推理框架当前的语言模型在这些任务上的准确率依然远称不上可以信赖它们是研究工具而不是人类专业人士的替代品。有兴趣深入探索这项研究细节的读者可以通过论文编号arXiv:2606.05009查阅完整原文。QAQ1DAR规范性主动推理和传统的直接推理有什么区别A传统直接推理是把整部法规文本和问题一起塞进AI的提示词让模型一次性完成所有工作。DAR则把法规存成独立文件AI根据需要随时用grep、sed等工具主动查阅相关条款类似于律师翻查法规而非背诵整部法典。核心区别在于一个是被动接收大量文本一个是主动按需检索特定信息。Q2为什么开源模型在DAR框架下反而表现更差A开源模型能力相对有限给它多轮交互的机会反而成了负担。它们不知道何时停下来会在错误的推理路径上越走越深生成大量文字却得出同样的错误答案。数据上看开源模型在Terminus-2框架下每题平均消耗30-40万token是顶级模型的4倍以上但准确率却更低大量试验因超出10分钟时限而直接计为答错。Q3DeonticBench测试的四类任务分别是什么ADeonticBench包含四类任务一是SARA数值任务根据美国税法计算精确税款二是SARA二分类任务判断某法律主张是否成立三是航空行李任务判断特定场景下的行李收费四是USCIS移民任务预测移民上诉案件结果。前两类来自美国联邦税法后两类分别来自航空公司政策和移民行政法规。