收藏！小白程序员快速入门大模型：多模态LLMs学习指南

张

张建站

2026/5/11 22:37:01

10分钟阅读

多模态大模型MLLMs通过整合图像、文本、语音等实现跨模态理解和生成。文章介绍了MLLMs的基本概念、架构包括多模态编码器、连接器与LLM并区分了双编码器架构和基于LLM的架构。同时文章探讨了VLM前沿动态如GPT-4V、Gemini等并解释了图像Patch处理的原因和过程以及多模态连接器在融合不同模态信息中的关键作用。对于想要了解和学习大模型的程序员特别是小白这篇文章提供了一个全面的入门指南。1、基本概念多模态大模型普遍基于Transformer based架构NLP对文本进行embeddingCV对图像patch进行Embedding从图像、视频、文本、语音数据中提取特征转换为tokens进行不同模态特征的对齐送入类Transformer进行运算。这类模型将LLM的生成与推理能力扩展到超越文本的数据能够在多种信息模态下实现丰富的语义理解。现有方法大多集中于*视觉-语言理解VLU**通过*融合视觉如图像与视频与文本输入实现对空间关系、物体、场景及抽象概念的综合理解。这些模型运行在混合输入空间中其中文本数据以离散表示方式编码视觉信号则被编码为连续表示。与传统LLM类似这类模型的输出以离散token形式生成通常采用基于分类的语言建模和特定任务的解码策略。下图展示了多模态理解模型的典型架构。多模态理解模型的架构包括多模态编码器、连接器与大语言模型LLM多模态编码器将图像、音频或视频转换为特征这些特征通过连接器处理后输入LLM。连接器的架构大致可分为三类基于投影的连接器、基于查询的连接器和基于融合的连接器。视觉语言模型VLM两个大类别Dual-Encoder早期VLM模型主要采用双编码器架构通过分别编码图像与文本并在对齐的潜在空间中联合推理代表性方法包括CLIP、ViLBERT、VisualBERT与UNITER。这些开创性模型奠定了多模态推理的核心原则但过度依赖基于区域的视觉预处理和独立编码器限制了模型的可扩展性与泛化能力。该类模型构建方法又称为“跨模态注意力架构方法”cross-attention-based该方法特点是引入交叉注意力机制。LLM-Based随着强大LLM的兴起VLU模型逐渐转向仅解码器架构通常以冻结或微调的LLM为基础该类模型构建方法又称为“统一嵌入解码器架构方法”decoder-only。这些方法主要通过结构各异的连接器转换图像嵌入例如MiniGPT-4采用单层可学习投影层将CLIP提取的图像嵌入映射到Vicuna的token空间。2、VLM前沿动态GPT-4V在GPT-4框架基础上扩展图像输入能力虽为闭源模型但展现出强大的视觉推理、图像描述与多模态对话能力。Gemini基于解码器架构支持图像、视频与音频模态其Ultra版本在多模态推理任务中树立了新基准。Qwen系列展示了可扩展的多模态设计Qwen-VL集成视觉接收器与定位模块Qwen2-VL引入动态分辨率处理与M-RoPE机制增强对多样输入的稳健性。LLaVA-1.5与LLaVA-Next结合CLIP视觉编码器与Vicuna风格LLM在VQA视觉语言问答与指令跟随任务中表现出色。InternVL系列探索统一多模态预训练策略联合学习文本与视觉数据提升各类视觉-语言任务表现。Ovis通过可学习的视觉嵌入查找表引入结构嵌入对齐机制使视觉嵌入结构上对齐文本token。近期部分模型进一步探索可扩展、统一的多模态处理架构。DeepSeek-VL2采用专家混合MoE架构提升跨模态推理能力。总体而言这些模型展现出向指令微调、token中心化框架演进的趋势能够以统一、可扩展的方式处理多样化多模态任务。3、图像Patch为什么需要将图像处理成 Patch传统的图像处理主要依赖于卷积神经网络CNNCNN 通过局部感受野和层层抽象来提取图像特征。然而当前许多强大的 MLLMs 的基础架构是 Transformer 模型这种模型最初为处理文本等序列数据而设计其核心优势在于通过自注意力机制捕捉序列中元素之间的长距离依赖关系。将原始图像直接输入 Transformer 面临两大挑战巨大的维度高分辨率图像包含海量像素点直接将像素矩阵作为输入维度过高计算和内存消耗巨大难以处理。结构不匹配Transformer 处理的是一维序列而图像是二维网格结构。需要一种方式将二维图像转化为一维序列同时尽可能保留原有的空间信息。将图像分割成固定大小的“补丁”patches并排成序列提供了一种优雅的解决方案。这种方法将图像类比于文本中的“词语”或“tokens”使得 Transformer 模型能够以处理文本序列的方式来处理图像。图像 Patch 处理的详细过程将原始图像转化为模型可接受的 Patch 序列通常包括以下几个步骤1.图像分割 (Image Segmentation into Patches):将原始图像按照固定大小例如 16×16 或 32×32 像素分割成一系列互不重叠的小块。目的是将大型二维图像分解成可管理的、标准大小的基本处理单元。2.展平 (Flattening):将每个 P×P×C高 × 宽 × 通道数的图像块的像素数据按顺序展平为一个长度为 P×P×C 的一维向量。目的是将每个图像块转换为一个标准的向量格式适配后续的线性变换。3.初始 Patch 嵌入 / 线性投影 (Initial Patch Embedding / Linear Projection):对每个展平后的 patch 向量应用一个线性变换一个全连接层。这个线性层将高维的展平向量维度 P2C投影到模型内部统一的嵌入维度 D。它学习将原始像素数据映射到模型所在的嵌入空间中具有语义意义的向量表示类似于文本处理中的词嵌入层。这一步将原始像素信息转化为模型能够理解的、低维稠密的特征嵌入。4.位置编码 (Positional Encoding):在 Patch 嵌入向量中加入一个表示该 patch 在原始图像中空间位置的向量位置编码。位置编码可以是预设的如正弦/余弦函数或可学习的。通过这种方式为每个 patch 嵌入注入空间上下文信息使模型能够理解 patch 之间的相对和绝对空间关系从而捕捉图像的整体结构。Patch 之间的排序方式将二维图像块排列成一维序列时最常用和标准的方式是采用从左到右、从上到下的顺序即raster scan顺序。这意味着序列的第一个元素是图像左上角的 patch然后依次是同行的右侧 patch直到行末。接着是下一行的第一个 patch再是同行的右侧 patch以此类推直到图像右下角的 patch 成为序列的最后一个元素除了可能的 CLS Token。这种排序方式简单直观并且与位置编码的生成方式紧密配合使得每个序列索引都能唯一对应到原始图像中的一个空间位置。将原本在二维空间中相邻的 patches如上下相邻的 patch在序列中隔开这确实与CNN通过局部卷积核处理邻近区域的方式不同。这会破坏某些依赖于严格二维邻近性的局部特征吗Transformer 模型依靠其独特的机制来克服这个问题并不会因此“破坏”特征。自注意力机制的全局连接能力与 CNN 的局部感受野不同Transformer 的自注意力机制允许序列中的每一个 patch 嵌入与所有其他 patch 嵌入直接计算注意力权重并进行信息交换无论它们在序列中是相邻还是相隔很远。这意味着即使上下相邻的 patch 在序列中距离较远模型也可以在单个注意力层中捕捉到它们之间的关系。位置编码提供的空间语境位置编码确保了模型知道每个 patch 在原始二维图像中的真实空间位置。模型学习到序列中相隔较远的两个 patch例如序列索引为 i 和 j 的 patch在原始图像中是上下相邻的例如基于它们的位置编码从而可以在处理过程中有效地整合它们的信息。4、多模态编码器又称为视觉骨干网络在将图像 Patch 转换为初始嵌入序列后这些序列会被输入到一个视觉骨干网络中进行更深层次的特征提取和抽象。这个视觉骨干网络是 MLLM 中专门负责处理图像信息的部分。以下是一些常见的视觉部分选择及其分析。传统的卷积神经网络 (CNN)**代表模型**ResNet、ResNeXt、EfficientNet 等。核心思想利用卷积和池化进行层次化特征提取。优点技术成熟计算效率相对较高对于局部特征对局部结构敏感。缺点缺乏原生处理长距离依赖的能力输出格式需转换缺乏原生的跨模态对齐。应用场景早期或特定需求如边缘设备的 MLLMs或作为混合模型的一部分。原生视觉 Transformer (*ViT*)代表模型Vision Transformer (ViT) 原始版本及其变体。核心思想在 Patch 序列上直接应用标准的 Transformer Encoder。优点强大的全局建模能力与 Transformer 架构天然兼容可扩展性强。缺点对局部细节捕捉相对弱计算量大高分辨率缺乏原生的跨模态对齐。应用场景许多现代 MLLMs 的首选特别是需要强大全局视觉理解能力的模型。层次化视觉 Transformer (Hierarchical ViT)代表模型Swin Transformer、PVT 等。核心思想结合层次化思想和 Transformer逐步扩大感受野。优点兼顾局部和全局信息计算效率更高特别是高分辨率输出多尺度特征。缺点结构相对复杂缺乏原生的跨模态对齐。应用场景处理高分辨率图像、对计算效率有要求或需要多尺度视觉特征的 MLLMs。图文对齐模型 (Image-Text Alignment Models) 的图像编码器**代表模型**CLIP其 Vision Transformer 或 ResNet 图像编码器、ALIGN、Florence、CoCa 等。核心思想在大规模图文对数据上进行对比学习等联合训练使图像和文本在共享空间中对齐。优点强大的预训练跨模态对齐能力泛化能力强简化后续融合。缺点可能牺牲部分纯视觉任务性能依赖预训练数据质量。应用场景当前绝大多数领先的 MLLMs 首选特别是需要理解图文关联和开放世界概念的模型。5、多模态连接器(VL-Adapter)多模态模型中有效地融合和处理图像信息是构建强大 MLLMs 的关键挑战之一。无论选择哪种视觉骨干网络其输出的视觉特征例如 ViT 的 [CLS] Token 输出CLIP 的图像嵌入或 CNN 的最终特征图通常需要一个额外的转换步骤以便与模型中的其他模态尤其是文本信息进行有效的融合和交互。这个转换通常由一个或多个线性层有时是更简单的 MLP完成我们称之为 Projector投影层。如上图所示图像Embedding和文本Embedding需要进行融合就需要一个叫做多模态连接器的模块该模块作用统一的多模态嵌入空间可以将多种模块的潜在语义空间进行对齐维度对齐另外也可以将两类Embedding的hidden_state维度进行对齐。Projector 在不同视觉骨干和训练场景下的必要性使用基于图像任务预训练的视觉骨干CNN, 原生 ViT, 层次化 ViT这些骨干网络在图像分类等任务上预训练其特征空间主要反映视觉本身的特征与语言嵌入空间是独立的。在这种情况下Projector 层是至关重要且必不可少的。它需要学习一个复杂的映射将纯视觉空间中的特征有效地转换到语言模型的嵌入空间以实现模态间的对齐。Projector 承担着主要的跨模态对齐学习任务。多模态Projector的通常结构简单可以使用线性投影例如SmolVLM-256M-Instruct模型的Projector结构就是一个线性投影如上所述除了线性投影层MLPProjector还有Q-Former和LLM其它这两种典型架构如下图:如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

别急着装DevEco Studio！先搞定Node.js 14.15.3 LTS，鸿蒙开发环境搭建第一步

鸿蒙开发环境搭建：为什么Node.js 14.15.3 LTS是DevEco Studio的隐形基石在鸿蒙生态的快速发展中，许多开发者迫不及待地想直接跳入DevEco Studio的安装和使用，却忽略了一个关键的前置步骤——Node.js环境的正确配置。这种急于求成的做法往往会…...

2026/5/11 22:21:30 阅读更多 →

城通网盘下载加速终极指南：如何免费突破100KB/s限制的3种高效方案

城通网盘下载加速终极指南：如何免费突破100KB/s限制的3种高效方案【免费下载链接】ctfileGet 获取城通网盘一次性直连地址项目地址: https://gitcode.com/gh_mirrors/ct/ctfileGet 还在为城通网盘的100KB/s下载速度限制而烦恼吗？😫 …...

2026/5/11 22:21:29 阅读更多 →

用scatter( )函数绘制二维散点图

scatter ( )函数基本格式为scatter (x,y)，表示在向量x和y指定的位置绘制一个包含圆形的散点图。已知：x0～3π。要求：以ysin(x)为形状基准，通过随机数（0～1）的方式绘制一簇（…...

2026/5/11 22:17:06 阅读更多 →

OpenClaw智能模型路由：基于任务复杂度与成本约束的动态调度实践

1. 项目概述：一个聪明的AI模型调度器如果你正在使用OpenClaw，并且手头同时接入了多个不同能力、不同成本的AI模型（比如Kimi、GPT、Claude等），那么你很可能遇到过这样的困扰：一个简单的文本总结任务&#xf…...

2026/5/11 19:13:10 阅读更多 →

机器学习的数据合成（二）

原文：annas-archive.org/md5/9d5ab593b867c3a47f27572d629020aa 译者：飞龙协议：CC BY-NC-SA 4.0 第十四章：合成到真实领域自适应本章向您介绍了一个常见的问题，通常限制了合成数据的使用性，称为领域差距…...

2026/5/10 0:10:18 阅读更多 →

cann/catlass MX FP8批量矩阵乘

MXFP8BatchMatmulTla Example Readme 【免费下载链接】catlass 本项目是CANN的算子模板库，提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass 功能介绍演示 Ascend 950 上的 MX FP8 矩阵乘：A、B …...

2026/5/11 13:10:58 阅读更多 →