前几篇文章中我们已经介绍了机器学习的基本概念、模型训练术语、评价指标以及神经网络的基础结构。但真正进入AIDD也就是人工智能辅助药物发现之后我们还会遇到一批更“结构化”的深度学习名词卷积神经网络、循环神经网络、LSTM / GRU、Transformer、注意力机制、自注意力、位置编码、编码器、解码器、残差连接。这些词不是孤立的术语而是深度学习发展过程中为了解决不同问题而形成的经典结构。有的结构擅长看图有的结构擅长读序列有的结构擅长记忆上下文有的结构擅长抓重点有的结构让网络变得更深却不至于崩塌。它们就像机器学习世界中的不同器官眼睛、耳朵、记忆、注意力、语言理解和信息通道。机器没有真正的意识但人类为它搭建了一套结构让它在数据中尽可能模仿某些“理解”的形式。当然模仿不等于理解。模型可以计算分子预测蛋白生成序列却并不真正知道自己在做什么。它只是沿着数据、参数和损失函数铺好的道路一步一步向前走。所以我们学习这些经典结构不是为了崇拜它们而是为了看清它们为什么出现又适合解决什么问题。一、卷积神经网络Convolutional Neural NetworkCNNCNN 最早在图像任务中大放异彩。它最核心的思想是用一个个小窗口在数据上滑动提取局部特征再逐步组合成更高级的判断。生活中可以想象一个人看一幅画。你不会一开始就理解整幅画的全部含义。你会先看到边缘、线条、颜色、纹理再看到局部结构比如眼睛、鼻子、树叶、窗户最后才综合判断这是一只猫一座房子还是一片森林。CNN 也是如此。在图像中卷积核像一个小模板会在图片上滑动提取边缘、纹理、局部形状等信息。多层 CNN 逐层处理后就可以从简单特征组合出复杂特征。在AIDD中CNN 可以用于分子图像或二维结构图识别医学影像分析蛋白质接触图预测分子性质预测中的局部结构模式提取基于网格化三维结构的蛋白-配体相互作用建模。例如如果把蛋白结合口袋或蛋白-配体复合物转化成三维网格CNN 就可以像看图一样从空间中提取局部相互作用模式。CNN 的优势在于善于捕捉局部模式。它的问题也在这里它看得很细但未必天然擅长理解长距离关系。它像一个认真观察局部纹理的画师。细节很敏锐但如果没有更高层次的结构配合也可能只见树木不见森林。二、循环神经网络Recurrent Neural NetworkRNNRNN 主要用于处理序列数据。它的核心思想是按顺序一个一个读取信息并把前面读到的内容保存在隐藏状态中传递给后面的计算。生活中可以想象你在听一句话。比如一句话是“这个分子虽然结构简单但对靶点的选择性很好。”你不能只听最后几个字。你对“选择性很好”的理解依赖前面“这个分子”“结构简单”“但”这些信息。语言是有顺序的前后文会影响理解。RNN 就是为了处理这类顺序信息而设计的。它每次读取一个输入比如一个单词、一个氨基酸、一个时间点的数据然后把当前信息和前面保存的信息结合起来形成新的隐藏状态。在AIDD中RNN 曾经常用于SMILES 分子字符串建模蛋白质序列分析药物反应时间序列建模基因表达动态变化分析序列生成任务。例如一个分子的 SMILES 可以看作一种字符串序列。RNN 可以从左到右读取字符学习化学结构的写法和规律。但 RNN 有一个天然问题当序列很长时早期信息在不断传递中容易衰减。就像一个人听很长的句子听到后面时前面细节可能已经忘得差不多了。RNN 是机器学习处理序列的一次重要尝试。它让模型学会“按时间读世界”但记忆力并不总是可靠。三、LSTM / GRULSTM 的英文是 Long Short-Term Memory中文常译为长短期记忆网络。GRU 的英文是 Gated Recurrent Unit中文常译为门控循环单元。LSTM 和 GRU 都是 RNN 的改进结构主要是为了解决普通 RNN 难以处理长距离依赖的问题。生活中可以想象读书做笔记。普通 RNN 像一个人边听边记但没有清晰的整理机制。听到后面前面内容可能逐渐模糊。LSTM 则像一个会做笔记的人重要内容留下不重要内容删掉新信息适当写入最终形成更稳定的理解。LSTM 通过“门控机制”控制信息流动。它通常包括遗忘门决定哪些旧信息应该丢弃输入门决定哪些新信息应该写入输出门决定当前应该输出什么信息细胞状态用来保存长期记忆。GRU 则可以理解为更简化的版本。它通常使用更新门和重置门结构比 LSTM更简洁训练效率也常常更高。在AIDD中LSTM / GRU 可以用于分子 SMILES 生成蛋白质序列建模药物组合时间序列分析生物信号序列预测早期分子生成模型中的序列生成任务。例如在基于 SMILES 的分子生成中LSTM 可以学习已有分子字符串的语法然后逐步生成新的分子表示。不过LSTM / GRU 虽然比普通 RNN 更会记忆但它们仍然是按顺序处理信息。对于特别长的序列或者需要全局关系建模的任务它们仍可能吃力。它们像会做笔记的大脑。比单纯记忆可靠但仍受限于阅读顺序和笔记方式。四、TransformerTransformer 是深度学习中极其重要的结构也是大语言模型、蛋白质语言模型、分子生成模型等许多现代模型的基础。它与 RNN 最大的不同在于Transformer 不需要严格按顺序一步一步处理序列而是可以让序列中的所有位置同时互相“看见”。生活中可以想象读一篇文章。普通 RNN 像一个人从第一个字读到最后一个字边读边记。Transformer 更像一个人把整篇文章摊在桌面上反复看关键词看前后文看句子结构再判断每个词在整段话中的意义。Transformer 的核心组件包括注意力机制、自注意力、位置编码、前馈网络、残差连接、归一化等。在AIDD中Transformer 已经被广泛用于蛋白质语言模型分子语言模型SMILES 生成蛋白质结构预测相关模型分子性质预测药物-靶点相互作用预测抗体序列设计多模态药物发现模型。例如蛋白质序列可以被看作由氨基酸组成的“语言”。Transformer 可以学习氨基酸之间的远距离依赖从而捕捉与结构、功能、进化有关的信息。Transformer 的强大之处在于它擅长建模长距离关系也适合大规模预训练。它的问题在于计算成本高对数据和工程能力要求也高。Transformer 像一个能同时翻阅全书的人。它不再只沿着一句话向前走而是试图从全局中理解局部。当然它仍然不是人。它只是把“上下文”变成了可以计算的权重。五、注意力机制Attention Mechanism注意力机制的核心思想是模型在处理信息时不是对所有内容一视同仁而是给更重要的信息更高权重。生活中很容易理解。你读一段文字时不会每个字都同等重要。你会自然关注关键词、转折词、因果关系和结论。比如一句话里出现“但是”“因此”“显著提高”“毒性降低”你的注意力会立刻聚焦过去。模型也是如此。注意力机制让模型学会在一堆信息中判断哪些信息更关键哪些信息可以少看一点。在AIDD中注意力机制可以用于识别蛋白质序列中的关键残基判断分子中哪些原子或片段对性质预测更重要分析药物-靶点相互作用中的关键区域在多组学数据中判断哪些特征更有贡献在生成模型中聚焦关键上下文。例如在预测一个分子是否有毒时注意力机制可能把更高权重分配给某些潜在毒性基团。对于蛋白质序列模型注意力可能帮助模型关注保守位点、功能位点或长距离相互作用残基。不过注意力权重不一定等同于严格的生物学解释。它可以提供线索但不能直接当成机制证据。注意力机制像一个会划重点的读者。但划重点不等于真正理解。重点画得漂亮也还需要科学验证。六、自注意力Self-Attention自注意力英文是 Self-Attention。自注意力是注意力机制的一种特殊形式。它指的是同一个序列内部的各个元素彼此之间计算关联每个元素都可以根据其他元素来更新自己的表示。生活中可以想象理解一句话。比如“这个分子和靶点结合后它的构象发生变化。”这里的“它”指什么要理解这个词必须回看前面的“分子”或“靶点”。句子中的每个词并不是孤立存在的而是在上下文关系中获得意义。自注意力就是让序列中的每个位置都去“看”其他位置从而理解自己在整体中的作用。在AIDD中自注意力非常重要。对于蛋白质序列一个氨基酸残基的功能可能与远处残基有关对于分子 SMILES一个字符或片段的意义依赖整个字符串结构对于抗体序列CDR 区域和框架区之间可能存在协同影响对于多组学数据一个特征的意义可能取决于其他分子层面的状态。自注意力可以帮助模型捕捉这些远距离关联。例如在蛋白质语言模型中自注意力可以学习残基之间的共变关系和潜在结构联系。虽然输入只是序列但模型可能从大量数据中学到一定的结构和功能线索。自注意力让每个词都不再孤立。它像一个人在理解社会关系一个人是谁不只取决于他自己也取决于他和谁相连。七、位置编码Positional EncodingTransformer 本身并不像 RNN 那样天然按顺序读取序列。因此它需要额外方式告诉模型每个元素在序列中的位置是什么。这就是位置编码。生活中可以想象一句话“药物抑制靶点”和“靶点抑制药物”。词差不多但顺序不同意思完全不同。如果模型只知道有哪些词却不知道它们的顺序就很难理解真正含义。位置编码就是给每个 token 加上位置信息让模型知道谁在前谁在后彼此相隔多远。在AIDD中位置编码同样重要。蛋白质序列中氨基酸位置会影响结构折叠和功能SMILES 字符串中符号顺序决定分子结构表达抗体序列中不同区域的位置对应不同功能意义核酸序列中碱基顺序直接决定生物学信息。位置编码让模型不仅看到“内容”也看到“顺序”。它像给每个词、每个氨基酸、每个字符发一张座位号。没有座位号满屋都是人却不知道谁坐在哪里。八、编码器Encoder编码器的作用是读取输入信息并将其转换成一种更适合模型理解和使用的表示。生活中可以想象你读一段文章。文章本身是一串文字但你读完后脑中形成的不是原文逐字复制而是对其含义的理解。你会压缩信息、提取重点、形成概括。编码器做的事情也类似。它把输入序列、图像、分子结构或蛋白质序列转化成隐藏表示。这种表示不一定人类可直接阅读但模型可以继续使用。在AIDD中编码器非常常见。分子编码器可以把分子结构转化为向量表示蛋白质编码器可以把氨基酸序列转化为蛋白表征图编码器可以把分子图转化为图级特征多组学编码器可以把复杂生物数据压缩成潜在空间表示。例如一个蛋白质序列经过 Transformer 编码器后每个氨基酸都可以获得结合上下文后的表示。这些表示可以用于功能预测、结构预测或突变效应分析。编码器的价值在于把复杂对象变成可计算、可比较、可预测的表示。它像一个读书人把漫长文本读成心中的意思。但读得准不准仍要看它学过什么书见过什么世界。九、解码器Decoder解码器的作用是根据已有表示生成目标输出。如果编码器像读懂一段话那么解码器就像用自己的话把意思说出来。生活中可以想象翻译。你先读懂一句中文这相当于编码然后把它表达成英文这相当于解码。翻译不是简单替换词语而是根据理解生成新的序列。在深度学习中解码器常用于生成任务。它可以根据编码器输出的上下文表示一步步生成目标序列。在AIDD中解码器可以用于分子生成SMILES 生成蛋白质序列生成抗体序列设计文本到分子生成结构条件下的候选序列设计。例如在一个分子生成模型中编码器可以读取目标口袋或已有分子信息解码器则逐步生成新的分子序列或结构表示。解码器的关键特点是生成。它不只是判断已有东西而是在已有表示基础上提出新的东西。但生成不是创造奇迹。模型生成的分子可能不稳定、不可合成、无活性甚至只是形式上像分子。因此解码器之后还必须接筛选、约束、评价和实验验证。解码器像一个会写答案的人。但答案写得流畅不代表答案正确。十、残差连接Residual Connection残差连接的核心思想是在深层网络中为信息提供一条跳过复杂变换的“捷径”让原始信息可以直接传到后面。生活中可以想象走路。从出发点到终点有一条主路途中要经过很多复杂路段。如果主路太长、太绕人容易迷路。于是旁边修了一条捷径。即使复杂路段走得不顺至少原始信息还能通过捷径顺利到达后面。残差连接就是这条捷径。在神经网络中输入 x 经过一系列变换得到 F(x)然后与原始输入相加形成输出H(x) F(x) x这样做可以缓解深层网络训练困难的问题帮助梯度更顺利地传播也让网络更容易学习有用表示。残差连接最经典的应用是 ResNet也广泛存在于 Transformer 等现代模型中。在AIDD中深度模型常常需要处理复杂输入比如蛋白质序列、分子图、三维结构和多模态数据。没有残差连接模型加深后可能出现训练困难、性能退化等问题。残差连接让网络可以变深同时不至于轻易失控。残差连接看似简单却很重要。它提醒我们复杂系统中保留一条直接通路往往比盲目堆叠更聪明。人做事也是如此。路走得太复杂时至少要记得自己从哪里出发。把这些结构串起来深度学习如何服务AIDD现在我们把这些概念放回AIDD场景。如果任务是处理图像、空间网格、医学影像或局部结构模式CNN 很有价值。它像机器的眼睛擅长从局部纹理中提取规律。如果任务是处理序列比如 SMILES、蛋白质序列、时间序列数据RNN 曾经是一类重要方法。它按顺序读取信息试图把过去传递到未来。如果序列中存在长距离依赖LSTM / GRU 比普通 RNN 更稳健。它们通过门控机制决定哪些信息保留哪些信息遗忘。如果任务需要全局建模、长距离依赖和大规模预训练Transformer 就成为强有力的结构。它通过自注意力让每个位置都能与其他位置建立联系。注意力机制让模型学会分配重点。自注意力让序列内部的信息互相参照。位置编码让模型知道顺序。编码器负责理解输入。解码器负责生成输出。残差连接则让深层网络更容易训练。在AIDD中一个现代模型可能同时包含这些结构。例如一个蛋白质语言模型可能使用 Transformer 编码器通过自注意力学习氨基酸之间的关联并通过位置编码保留序列顺序。一个分子生成模型可能使用编码器读取靶点或分子条件再用解码器生成新分子。一个结构预测或性质预测模型可能使用残差连接构建更深网络提高训练稳定性。这些结构不是为了炫技而存在。它们都是在回应具体问题如何看局部模式如何读序列如何记住长距离信息如何抓重点如何理解上下文如何生成新对象如何训练更深的模型深度学习的发展并不是模型越来越神秘而是人类不断把问题拆开再为每个问题设计新的结构。结语模型结构不是魔法而是对问题的回答AIDD中的深度学习结构很多名字也越来越复杂。但初学者真正需要理解的不是背下每个结构的细节而是看清它们背后的问题意识。CNN 解决的是局部特征提取问题RNN 解决的是顺序信息处理问题LSTM / GRU 解决的是长距离记忆衰减问题Transformer 解决的是并行建模和全局依赖问题注意力机制解决的是信息重要性分配问题自注意力解决的是序列内部相互关联问题位置编码解决的是顺序缺失问题编码器解决的是输入理解问题解码器解决的是输出生成问题残差连接解决的是深层网络训练困难问题。这些结构共同构成了现代AIDD模型的重要基础。但我们仍要保持清醒。模型结构再精巧也不能自动保证科学正确。CNN 看到的局部模式可能只是数据偏差Transformer 学到的关联可能并不是因果机制注意力权重给出的重点也未必就是生物学真相生成模型给出的候选分子也未必能够合成、结合或成药。AI可以帮助我们扩大搜索空间减少盲目尝试提高建模效率。但真正的药物发现仍然要回到化学合理性、生物机制、物理约束和实验验证。深度学习不是炼金术。它是一套结构化的计算方法。它不会替我们理解世界。它只会沿着我们给出的数据、目标和结构尽力拟合这个世界留下的影子。而科学要做的不是跪拜影子而是追问光从哪里来。