处理独立、静态输入的FNNFNN前馈神经网络。FNN是最简单的神经网络像一个完全新手的厨师只看当前的步骤没有前后步骤的记忆和关联。一个新手厨师第一次拿到菜谱后就开始按照菜谱做饭看一步做一步每一步都是独立的比如看到了“切葱”的步骤就只看到切葱的输入“粗细、长短”等输出就是“切成小段的细葱丝”。他并不管前面的步骤也不管后面的步骤。前面一步洗葱但如果没有洗就切了葱上会有泥。后面一步是用200度的热油炒香葱丝那么如果葱丝切得很细下锅就糊了。有序列记忆的RNNRNN循环神经网络。RNN通过循环机制记住之前的步骤和状态适合处理序列。这就像一个有点经验的厨师炒酱能够根据前几步调整当前的步骤。捕捉局部规律的CNNCNN卷积神经网络。它是一个擅长找规律的厨师关注菜谱中相邻步骤的模式并不是记住做饭步骤的序列而是找出相邻步骤的模式它用“放大镜”扫描食谱找出关键的组合技巧。动态聚焦关键步骤的Attention机制Attention也叫注意力机制。它是一个资深厨师能够动态关注食谱中最相关的部分而不是按顺序或局部处理。它通过计算当前步骤与过去步骤的相关性决定哪些步骤更重要。例如在做“慢炖”这一步的时候这个资深的厨师会扫描整个食谱计算哪些步骤对现在最重要。假设他发现切葱姜蒜的粗细会影响爆香决定酱汁的香味而调和的酱汁的比例会影响最后的黏稠度就会把这两个步骤分配更高的权重。Attention这个资深的厨师会快速地翻阅菜谱然后找出关键点。这样就可以灵活地处理距离依赖不受序列长度的限制并且是可解释的也就是可解释为什么要关注这些步骤。传统Attention常用于“输入-输出”任务比如翻译需要外部“查询”如当前步骤查询过去步骤。但如果整个食谱是自包含的步骤间自己关联Attention需要外部引导不够简洁。全局自我关联的Self-AttentionSelf-Attention是Transformer的核心允许序列中每个步骤“自己关注”其他所有步骤像一个大师级厨师能让食谱的每一步都相互“对话”形成全局优化方案。食谱的每个步骤洗葱、切葱、炒肉、调和酱汁等同时处理。