这项由上海人工智能实验室联合北京大学、西安交通大学、浙江大学、华东师范大学、湖南大学、上海交通大学、上海大学及中国科学院大学共同完成的研究以预印本形式发布于2026年4月30日的arXiv平台编号为arXiv:2604.28158v1归档于cs.AI方向。有兴趣深入了解的读者可以通过该编号查询完整论文。科研界有一个隐藏已久的痛点但多数人从未意识到它的存在。每天都有成千上万篇学术论文涌现出来研究者们通过谷歌学术、Semantic Scholar这类工具搜索文献找到相关论文然后花费大量时间阅读在脑海中慢慢拼出一幅谁影响了谁、谁又在谁基础上改进的图景。这幅图景完全存活在人脑里无法被机器直接读取。对于人类研究者来说这个过程虽然费时但尚且可行。然而随着AI辅助科研工具的兴起一类新的知识消费者正在登场——它们是自动化的AI研究代理被设计用来自主提出假设、设计实验、生成研究思路。这类代理面临一个根本性的困境它们无法像人类一样从一堆零散的论文里重建出方法论的演化脉络。它们的知识存储方式更像一个巨大但模糊的印象库对于冷门或新兴的方法往往缺乏足够认知更糟糕的是它们根本无法判断自己的知识盲区究竟是真实的研究空白还是自身知识库里的漏洞。研究团队将这个时刻比作历史上的几次关键基础设施建设时刻。蛋白质数据库PDB在AlphaFold出现之前数十年就已建立系统地收录了蛋白质结构数据正因为有了这个结构化的数据基础AlphaFold才能发挥出划时代的作用。ImageNet在深度卷积神经网络的浪潮到来之前就已将海量图像整理成带标签的层级数据集正是这份数据基础让此后的视觉识别革命成为可能。如今AI科研代理已经来临但支撑它们的方法论知识基础设施尚不存在。正是为了填补这个空白研究团队提出了Intern-Atlas——一张由方法论演化关系构成的知识地图。这张地图不是以论文为节点而是以研究方法为节点用有明确语义的有向边将它们连接起来每条边都附有从原文直接摘录的证据文字记录着一个方法是如何在另一个方法的基础上改进、扩展或替代的。整张地图由超过103万篇论文构建而来包含941万条有语义类型标注的关系边覆盖1965年至2025年间的AI领域主流会议、期刊和预印本。一、科研界的地图缺失问题究竟有多严重以Transformer为例来感受一下这个问题的规模。2017年谷歌的研究团队发表了那篇著名的Attention Is All You Need提出了Transformer架构。此后这个架构像一棵大树一样不断生长分叉BERT沿着双向语言理解的路径生长GPT系列沿着自回归生成的路径发展Vision Transformer把同样的思路搬到了图像识别领域DETR则将其应用于目标检测。每一个分支背后都有一个清晰的逻辑前人的方法存在什么局限新方法如何针对这个局限提出解决机制以及这个解决方案又带来了哪些新的取舍。然而在现有的文献数据库里这些信息只以最粗糙的形式存在——论文A引用了论文B。这条引用线不告诉你A是在B的基础上扩展了什么能力还是仅仅把B当作一个对比基线抑或只是在背景介绍里顺带提了一句。对人类研究者而言阅读论文全文后自然能分辨但对机器来说这条引用线几乎没有任何可用的结构信息。现有平台中OpenAlex索引了数亿篇学术作品Semantic Scholar和S2ORC在标准引用图基础上补充了引用上下文句子Papers With Code引入了任务-数据集-指标的结构化三元组。这些都是极有价值的基础但它们的边在方法论层面仍然是未分类的。Intern-Atlas要做的正是把这些无标注的边转化为有明确语义的因果关系同时把分析的基本单元从整篇论文降低到具体的研究方法。这个转变的意义就像把一座城市的路网从这里有一条路升级为这条路是单行道、限速60、连接商业区与住宅区、建于1990年、在2015年扩建。前者让你知道路在哪后者让你真正理解城市的结构。二、Intern-Atlas的构建一张有因果关系的方法论地图构建这张地图分为三个环环相扣的步骤可以把它理解为一个大型图书馆的建设工程——先确定书架上每本书的位置再标注每两本书之间的关系类型最后为每段关系写上一份有原文出处的说明卡片。第一步是实体解析也就是确定地图上的节点。地图包含三类节点属于这份语料库的论文节点、代表具体研究方法的方法节点以及被引用但不在语料库内的存根节点共317万余个作为历史溯源的占位符。方法节点的建立从一份包含247个知名方法的手工种子列表开始然后通过大语言模型扫描全库论文的方法章节识别更多符合条件的候选方法最终形成了包含8155个规范方法节点、9545个别名的方法注册表。这里有一个特别重要的细节同一个方法在不同论文中往往有不同的称呼。Transformer有时被叫做vanilla TransformerGPT在某些语境下特指GPT-1在另一些语境下泛指整个GPT家族。为此研究团队建立了一张别名对照表能根据各种表面形式找到对应的规范节点同时处理版本后缀的合并比如-v2、-Large通常归并到父节点以及名称歧义问题比如Mamba可能指状态空间模型也可能指Python代码检查工具。第二步是边的类型标注。每一个被解析的引用关系都会被大语言模型分类器分配到七种标签之一。这七种标签按因果强度从高到低排列extends在原有方法上增加新能力、improves沿某一维度优化但不改变核心设计、replaces用本质不同的机制替换核心组件、adapts将原方法迁移到新领域或新任务、uses_component复用原方法作为辅助模块、compares作为对比基线引用和background仅作为背景知识引用。前四种构成强因果子集是后续演化链追踪的主要依据。这种分类的价值在于它区分了两类本质不同的知识传承方式方法论演化继承了父方法的核心机制并加以发展和模块化复用借用了父方法的某个子组件但核心贡献在别处。前者驱动演化链的追踪后者作为检索补充上下文。第三步是证据提取。对于每一条非背景引用边大语言模型提取器都会填写一份四字段的证据记录瓶颈被引用方法存在什么局限性直接引用原文、机制本文提出了什么解决方案直接引用原文、取舍新方法带来了哪些新的代价直接引用原文以及置信度模型对这次提取的把握程度0到1之间的数值。每个瓶颈还会被归类到14个维度之一包括计算复杂度、内存效率、并行化程度、准确性、泛化能力、可扩展性、数据效率、训练稳定性、推理速度、表达能力、简洁性、鲁棒性、超参数敏感性和训练复杂度。这14个维度是从NeurIPS 2024论文全文中随机抽取500段瓶颈描述经过聚类分析后由研究团队整理而来的。它们的作用是让知识地图不仅记录谁改进了谁还能回答改进的是哪个方面的问题——这对后续的想法生成至关重要。整个提取过程有一道严格的后处理关卡如果引用原文摘录的字段无法在原论文中精确匹配到对应字符串或者边的方向违反了发表年份顺序或者同一对节点之间已经存在方向相反的边该条记录就会被丢弃。这道纯代码实现的逐字验证器确保了知识地图中的每一条因果边都有可追溯的原文出处彻底杜绝了模型编造引用证据的可能。三、顺着时间脉络找到方法演化路径的搜索算法有了这张地图下一个问题是如何在上面高效地导航从一个方法出发追溯它的前世今生在一张包含数百万节点和数千万条边的图上这绝非易事。直觉上最简单的方法是贪心搜索——每一步都走最有把握的那条边。但方法论的演化往往不是一条单线而是一棵大树。Transformer衍生出BERT、GPT、ViT、DETR等多个分支每个分支又各自延伸出更多支系。如果每次遇到分叉点都只走一条路就会永远错过其他分支的演化轨迹。研究团队为此设计了一种名为自引导时序蒙特卡洛树搜索SGT-MCTS的算法。蒙特卡洛树搜索是一种在围棋AI程序AlphaGo中大放异彩的搜索策略其核心思想是在充分利用已知高分路径和探索未充分访问的路径之间保持动态平衡通过大量随机推演来积累统计信息从而在分叉点做出更明智的选择。研究团队对这个算法进行了针对知识图谱的改造加入了两个关键的物理先验。第一个是边的置信度也就是之前提到的提取器对每条边把握程度的评分越有把握的边在搜索中得到更高的优先级。第二个是时序连贯性函数它反映了一个直觉一个方法的直接后继方法在时间上通常只比它晚一到三年跨越几十年的直接演化关系在直觉上是可疑的在统计上也极为罕见。具体而言时序连贯性函数对不同年份差值赋予不同的权重年份差在1到3年之间得满分差4到6年得0.8分差7年以上按每年0.08递减直到下限0.3而逆时间方向的边后发表的论文影响了先发表的论文则被直接过滤掉。搜索完成后所有候选路径按照三个维度的加权组合进行排名路径的归一化长度更长的路径覆盖更多的演化节点、路径中所有边的平均置信度每一步都有扎实证据的路径更可信以及路径中节点被多少次独立模拟推演共同经过多条独立探索路径汇聚的路径意味着这是图中客观存在的主干道。此外在确定主要演化链之后算法还会回到每一个有多个强因果后继但只有一个被主链覆盖的分叉节点以覆盖已用边为禁止条件重新启动一次搜索从而发现那些平行的演化分支。四、实验验证这张地图画得有多准为了验证地图的质量研究团队从30篇高影响力的综述论文中构建了一个基准数据集涵盖AI各子领域包含2268个方法节点、1462条有向演化边和133条演化链。综述论文本身代表了领域专家对方法演化的共识判断是评估地图质量的理想参照。在静态图质量方面Intern-Atlas的节点匹配率为91.0%——也就是说综述中提到的方法有91%能在地图中找到对应节点。边的可达率为89.7%即综述中的演化关系有89.7%可以在地图中找到一条从源方法到目标方法的有向路径。路径语义正确率则达到92.0%意味着这些可达路径中92%的语义是正确的真实反映了方法演化的方向和含义。在演化链搜索算法的对比中SGT-MCTS展示出了显著的优势。以同样的图和起始方法为输入普通的束搜索beam search一种逐步保留最优候选链的贪心策略在宽度为10时节点召回率为44.9%边召回率为23.2%链对齐分数为44.9%。随机游走的表现更差。而SGT-MCTS的节点召回率达到了84.8%边召回率79.0%链对齐分数84.8%——相比最强基线三项指标分别提升了39.9、55.8和39.9个百分点。在ConvNet演化链的案例中这一差异体现得尤为直观。参考链是VGG → ResNet → ResNeXt → ConvNeXt → ConvNeXt V2。SGT-MCTS完整找回了这条参考子序列只是在首端多了一个提供框架背景的Caffe节点在末端多了一个ConvNeXt V2的下游应用节点主干完整无缺。束搜索找到了从ResNet往后的部分但遗漏了VGG这个关键的深度扩展节点并且从一个无关的语音识别分支入场。随机游走只找到了局部片段ResNeXt完全缺失。五、用这张地图来评估研究想法的质量构建好地图之后研究团队进一步发展了三类基于图的操作演化链追踪、想法评估和想法生成。想法评估解决的是一个实际问题当一个AI系统自动生成了一个研究想法如何判断这个想法的质量传统的做法是让大语言模型直接对想法文本打分但研究表明这种方式有系统性偏差——LLM评判的新颖性与最终科学影响力负相关因为模型倾向于偏好它熟悉的、高频出现的方法组合而真正新颖的想法往往涉及模型不熟悉的方法领域。Intern-Atlas的想法评估器采用了一种完全不同的思路把每个评分维度都转化为对图结构的确定性查询不依赖LLM进行主观判断。评估器对五个维度打分新颖性Novelty、可行性Feasibility、重要性Significance、有效性Validity和清晰度Clarity。以新颖性为例评估器会计算该想法涉及的方法在方法共使用图中的拓扑距离——如果两个方法从未在同一篇论文中同时被使用那么把它们结合的想法在结构上具有较高的新颖性。同时如果这个想法与已有论文有极高的文本相似度通过密集检索交叉编码器重排序的两阶段管道实现就会触发相应的重复风险惩罚。可行性维度则设计了一条甜蜜区间成熟度曲线一个方法的相关论文数量在500篇以内时可行性分数随数量增长而提高超过500篇后开始下降超过2000篇后进入过度成熟区间。这个曲线背后的逻辑是太新的方法配套工具不成熟太老的方法可能已经被充分挖掘中间成熟度的方法往往具有最好的可操作性。这种设计还有一个副作用它直接打压了把所有最热门的方法堆砌在一起的混搭型想法因为那些被引用超过2000次的方法反而会降低可行性得分。重要性维度通过计算相关论文的时间衰减引用量5年半衰期和方法的边疆存在性2021年后仍然活跃的方法节点拥有至少3条非背景出边来判断一个方向是否仍具有前沿价值。有效性维度则通过将想法中声称要解决的瓶颈与图中已标注的瓶颈维度进行匹配来衡量其技术合理性。五个维度的分数通过加权求和得到总分并且叠加了四条跨维度联合惩罚如果一个想法新颖性很高但可行性很低总分会被压低反映了想法-执行鸿沟这一研究发现的实证依据如果有效性和可行性都高总分会获得小幅奖励如果重要性得分处于中高区间也有相应的加成如果五个维度的最高分和最低分差距不超过2分且最低分在5分以上则视为均衡性好同样获得加分。最终评估器允许接入一个可选的LLM审核层但这个LLM只能降低总分不能提高总分——相当于一道单向否决机制用来纠正图查询可能出现的偶发错误而不会引入LLM的乐观偏差。为了验证评估器的有效性研究团队构建了一个包含1200篇论文的分层数据集均分为四个层次顶级AI会议论文ICLR 2026、ICML 2025、NeurIPS 2025、核心AI会议论文AAAI 2026、IJCAI 2025、研讨会论文来自ICLR 2026研讨会以及被拒论文ICLR 2026拒稿。从每篇论文中提取标准化的想法概述然后用评估器打分。结果显示顶级会议论文的平均总分为8.48核心会议论文为7.83研讨会论文为6.85被拒论文为5.84完美呈现单调递减趋势。五个子维度全部保持了同样的排序。其中重要性和有效性维度在不同层次之间的差距最大说明图中的方法演化结构对于判断一个想法是否针对真正重要的问题、技术上是否站得住脚特别有帮助。在与人类专家的对比中研究团队从数据集中抽取了100份想法概述邀请10位AI方向的博士研究生按同样的五维评分标准打分然后分别计算Intern-Atlas和纯LLM-as-Judge基线与专家评分的斯皮尔曼相关系数。Intern-Atlas的总体相关系数为0.81纯LLM基线为0.58。差距最大的是新颖性0.84对0.52和重要性0.82对0.55恰好是最需要理解方法演化结构的两个维度。六、用这张地图来生成新的研究想法在想法生成这一环节地图的作用从评判已有想法转变为主动发现空白地带。给定一个研究方法作为查询生成器会从地图中提取四类结构性的研究空白并据此提出具体的研究方向。第一类叫做开放轴——某个方法在某个特定瓶颈维度如内存效率上还没有被任何已有研究有效解决形成一个待填补的改进空间对应瓶颈解决生成策略。第二类叫做近期改进方向——观察最近两三年该方法被改进的主要方向沿着同一趋势外推对应趋势外推策略。第三类叫做断连对——两个在其他方法中频繁共现的方法在这个特定方法的上下文中从未被结合使用对应交叉融合策略。第四类叫做牺牲轴——这个方法为了解决某个问题而在另一个维度如推理速度做出了明显牺牲潜在的研究方向是用不同机制来重新解决同一问题、同时消除这个牺牲对应范式挑战策略。这四类模式都是通过纯图查询提取的不涉及任何LLM调用。只有在确定了具体的结构性空白和对应策略之后才将这些信息传递给LLM让其填写技术细节。这样一来LLM的任务从凭空构思变成了在规定框架内完成填空大大降低了生成无关或虚假研究方向的风险。为进一步防止LLM发明瓶颈每个生成的研究提案都必须携带一份证据证书一条具体的图中边、该边对应的瓶颈文本必须与图中存储的原文完全一致以及为何这个瓶颈尚未被解决的说明。在返回提案之前系统会对瓶颈文本进行精确匹配验证如果验证失败LLM的输出会被丢弃系统改为从图内容生成一个最小化但合规的备选提案。在评估实验中100个由10位AI博士研究生精心设计的研究问题分别被送入四个条件不使用任何外部知识库No-KB、使用OpenAlex作为检索来源、使用Semantic Scholar以及使用标准BM25检索方式从Intern-Atlas同一语料库中检索BM25 RAG。生成的想法统一用之前描述的Intern-Atlas评估器打分同时由同一批专家进行盲评对比。Intern-Atlas生成的想法在总分上达到7.20相比最强基线Semantic Scholar的6.18提升了1.02分。提升最显著的是新颖性6.37对5.40、重要性6.30对5.39和有效性6.26对4.70。在专家盲评中Intern-Atlas分别以88.0%、82.0%和81.0%的胜率战胜了No-KB、OpenAlex和BM25 RAG条件。值得关注的是在可行性和清晰度维度各方法的差距相当小——这说明所有基于知识库的方法都能生成可读性相近的研究提案Intern-Atlas的优势集中在对研究方向的战略判断上而非文字表达的流畅程度。说到底Intern-Atlas做的事可以用一句话概括它把人脑里那幅谁启发了谁、谁改进了什么、哪些问题还没人解决的隐形地图变成了一张机器可以直接读取、查询和推理的显式地图。这件事对人类研究者来说意味着可以更快地找到一个领域的关键演化节点和尚未解决的核心难题对AI研究代理来说意味着它们终于有了一个结构化的认知基础不再需要每次从零开始重建对领域的理解。回到历史类比正如蛋白质数据库为AlphaFold提供了原料ImageNet为视觉识别革命提供了土壤Intern-Atlas的雄心是成为AI辅助科学发现时代的基础数据层。这张地图本身是开放的研究团队已公开了图数据和完整流水线期待后续工作在此基础上继续发展朝着能够在完整的因果知识谱系上推理的AI研究代理迈进而非仅仅在孤立的论文堆中游走。不过有一些边界是诚实的研究团队应当说清楚的。Phase-1边类型分类的准确率在生产模型Qwen3.6-35B-A3B下约为70.4%在审计模型Claude Sonnet 4.6下为93.0%这反映了extends和improves这类细粒度因果关系本身就难以区分的客观难度。14轴瓶颈分类体系在发布时是固定的未来涌现的新型瓶颈维度只能归并到最接近的已有轴直到下次体系更新。时序连贯性函数是在2015年后的AI文献上校准的对研究节奏差异显著的领域可能需要重新调参。这些局限性都被研究团队坦然记录并提出了相应的缓解措施和未来扩展方向。有兴趣深入研究的读者可以通过arXiv编号2604.28158查阅完整论文其中包含了图构建的完整Schema定义、提取协议的全部细节、SGT-MCTS的完整算法描述以及评估指标的精确定义。---**QA****Q1Intern-Atlas知识地图和现有的谷歌学术、Semantic Scholar有什么根本区别**A谷歌学术、Semantic Scholar等工具以论文为基本单元通过引用关系连接论文但一条引用只说明A引用了B并不说明A是在B基础上扩展了功能、解决了B的局限、还是仅把B当对比实验。Intern-Atlas把分析单元从论文降低到具体的研究方法并将每条引用边标注为extends扩展、improves改进、replaces替代等七种有明确语义的关系类型每条非背景边还附有从原论文直接摘录的证据文字。这使机器可以直接查询某方法的演化历史或哪些瓶颈尚未被解决而无需人类在脑中重建这些关系。**Q2SGT-MCTS演化链搜索算法比普通搜索方式好在哪里**A普通的束搜索beam search在每个分叉点只保留最高分的几条路径遇到Transformer这种有BERT、GPT、ViT等多个分支的节点时就会丢弃其他分支的演化轨迹。随机游走则缺乏方向性容易陷入局部片段。SGT-MCTS通过大量随机模拟推演积累统计信息在利用高置信路径和探索未充分访问分支之间动态平衡并加入了两个物理约束边的置信度提取器的把握程度和时序连贯性直接后继方法通常只比前驱晚一到三年。在基准测试中SGT-MCTS的节点召回率达到84.8%比最强基线高出约40个百分点。**Q3Intern-Atlas的想法评估器为什么比直接让大语言模型打分更可靠**A研究表明直接让大语言模型评判想法新颖性时模型倾向于偏爱它熟悉的、频繁出现的方法组合导致新颖性评分与最终科学影响力负相关。Intern-Atlas的评估器把每个评分维度转化为对图结构的确定性查询不依赖模型的主观印象新颖性通过计算方法节点在图中的拓扑距离来衡量可行性通过一条反映方法成熟度的非单调曲线来计算重要性通过时间衰减引用量和边疆活跃性来判断。这种确定性设计让评分完全可审计、无随机性与专家评分的斯皮尔曼相关系数为0.81而纯LLM基线仅为0.58。