文章目录多模态技术解析图文对齐、CLIP、LLaVA 与跨模态嵌入一、引言二、多模态技术演进全景三、图文对齐跨模态语义统一3.1 核心问题3.2 对齐的三个层次四、CLIP对比学习统一图文空间4.1 核心架构4.2 训练目标InfoNCE 对比损失4.3 CLIP 的核心能力4.4 CLIP 变体对比五、视觉语言模型从理解到对话5.1 多模态大模型的通用架构5.2 LLaVA开源 VLM 的基准5.3 主流多模态大模型横向对比六、跨模态嵌入统一的语义空间6.1 跨模态嵌入的应用场景6.2 多模态嵌入模型对比七、图文生成从文字到图像八、总结多模态技术解析图文对齐、CLIP、LLaVA 与跨模态嵌入一、引言亲爱的朋友们创作不容易若对您有帮助的话请点赞收藏加关注哦您的关注是我持续创作的动力谢谢大家有问题请私信或联系邮箱jasonai.fngmail.com人类感知世界从不依赖单一模态——我们同时用眼睛看、耳朵听、语言描述。然而早期 AI 模型长期囿于单模态孤岛视觉模型只能看图语言模型只能读文字两者互不相通。2021 年OpenAI 发布CLIP第一次以优雅的对比学习框架打通了图像与文本的语义空间开启了多模态大模型的新纪元。此后GPT-4V、LLaVA、Gemini、Qwen-VL 相继涌现——多模态理解与生成正成为下一代 AI 基础能力的核心标配。二、多模态技术演进全景时间里程碑核心突破2021CLIPOpenAI图文对比预训练零样本图像分类 SOTA2021DALL-EOpenAI文本驱动图像生成扩散模型前奏2022Stable DiffusionStability AI开源文生图潜在扩散模型爆发2022FlamingoDeepMind少样本视觉语言模型跨模态上下文学习2023LLaVAUW/Microsoft开源视觉语言模型指令微调对齐2023GPT-4VOpenAI闭源多模态旗舰复杂图文推理2024Gemini 1.5Google原生多模态支持视频/音频/图像/文本2024Qwen-VL-MaxAlibaba中英双语多模态文档/图表理解 SOTA三、图文对齐跨模态语义统一3.1 核心问题图像是像素矩阵文本是离散符号——二者处于完全不同的表示空间。图文对齐的目标是将描述同一内容的图像与文本映射到共享语义空间的相近位置使一只猫在沙发上睡觉这句话与对应图片的距离远小于与一辆红色跑车的距离。3.2 对齐的三个层次层次粒度示例代表技术全局对齐整图 vs 整句图像整体语义 ↔ 描述句CLIP、ALIGN区域对齐图像区域 vs 短语边界框 ↔ “红色苹果”GroundingDINO、GLIP细粒度对齐像素 vs 词分割掩码 ↔ 对象名称SAM CLIP、GLaMM四、CLIP对比学习统一图文空间4.1 核心架构CLIPContrastive Language-Image Pretraining由两个独立编码器构成组件输入架构输出图像编码器图像224×224ViT-B/L 或 ResNet图像嵌入向量文本编码器文本描述Transformer文本嵌入向量两路向量投影到同一维度后通过对比损失训练同一图文对的相似度最大化不同对的相似度最小化。4.2 训练目标InfoNCE 对比损失在一个 batch 中有 N 个图文对构建 N×N 的相似度矩阵对角线正例非对角线负例同一图文对相似度最大化不同图文对相似度最小化训练数据4 亿图文对互联网爬取无需人工标注完全自监督。4.3 CLIP 的核心能力能力机制典型应用零样本图像分类将类别名填入模板a photo of a {class}找与图像最近的文本无需任何训练样本图文检索向量空间内的跨模态最近邻搜索以图搜文、以文搜图图像描述评分计算图文对相似度评估生成描述质量特征提取基础视觉特征供下游模型使用多模态大模型的视觉主干4.4 CLIP 变体对比模型机构改进点特点CLIPOpenAI原始方案4 亿图文对ViT 视觉主干ALIGNGoogle18 亿噪声图文对数据量更大噪声鲁棒SigLIPGoogleSigmoid 损失替代 Softmax不依赖全 batch 负例训练更稳定EVA-CLIPBAAIViT-18B 超大视觉编码器目前最大 CLIP 变体Chinese-CLIPAlibaba中文图文对训练中文场景首选五、视觉语言模型从理解到对话5.1 多模态大模型的通用架构所有主流视觉语言模型VLM均遵循三模块结构模块职责代表选型视觉编码器将图像转为视觉特征序列CLIP ViT-L、EVA-CLIP、SigLIP模态对齐层将视觉特征投影到语言模型的嵌入空间MLP 投影层、Q-Former、Cross-Attention语言模型融合视觉特征与文本指令生成回答LLaMA、Vicuna、Qwen、Mistral5.2 LLaVA开源 VLM 的基准LLaVALarge Language and Vision Assistant2023是开源多模态模型的奠基之作版本对齐层视觉编码器语言模型核心改进LLaVA-1.0单层 MLP 投影CLIP ViT-L/14Vicuna-13B最简方案证明可行性LLaVA-1.5两层 MLPCLIP ViT-L/14336Vicuna-7B/13B高分辨率12 项基准 SOTALLaVA-1.6NeXT动态分辨率CLIP ViT-LMistral/Mixtral支持 4× 更高分辨率OCR 提升LLaVA-OneVisionSigLIP MLPSigLIP-SO400MQwen2多图、视频理解LLaVA 训练两阶段阶段数据冻结模块训练模块目的预训练特征对齐图文描述对595K视觉编码器 LLMMLP 投影层学习视觉-语言特征映射指令微调端到端多模态指令数据158K视觉编码器MLP LLM习得多模态对话能力5.3 主流多模态大模型横向对比模型机构参数量上下文核心能力开源GPT-4oOpenAI未知128K图文/音频/视频推理最强✗Gemini 1.5 ProGoogle未知1M原生多模态超长上下文✗Claude 3.5 SonnetAnthropic未知200K图文理解文档分析优秀✗LLaVA-OneVision-72BUW72B128K开源最强视觉问答✓Qwen-VL-MaxAlibaba72B32K中英双语文档/图表 SOTA部分InternVL2-76BShanghai AI Lab76B8K开源综合性能 SOTA✓MiniCPM-V 2.6面壁智能8B64K端侧多模态超轻量✓六、跨模态嵌入统一的语义空间跨模态嵌入将图像、文本乃至音频、视频映射到同一向量空间是多模态检索与理解的底层基础。6.1 跨模态嵌入的应用场景场景输入输出代表系统以文搜图文本查询最相关图像列表Google 图片搜索、Pinterest以图搜图查询图像视觉相似图像电商商品识别多模态 RAG图文混合文档图文联合检索结果企业知识库问答图文匹配评估图像 描述相关性分数生成内容质量评估视频理解视频帧序列语义摘要向量视频搜索、片段定位6.2 多模态嵌入模型对比模型支持模态向量维度特点CLIP ViT-L/14图像 文本768最通用基准应用最广ImageBind图/文/音/深度/热感/IMU1024六模态统一嵌入Meta 开源E5-V图像 文本4096指令感知多模态嵌入VoyageAI Multimodal图像 文本1024商业 APIRAG 场景优化七、图文生成从文字到图像文生图技术让语言模型具备了视觉想象力核心技术路线范式代表模型原理优势劣势GANBigGAN、StyleGAN生成对抗网络生成速度快训练不稳定多样性有限自回归DALL-E 1、Parti图像 Token 化后自回归生成灵活可与 LLM 统一生成速度慢扩散模型DALL-E 2/3、SD、Midjourney逐步去噪恢复图像质量高多样性强推理步骤多较慢流匹配Flow MatchingSD3、FLUX学习从噪声到图像的直接流比扩散更快质量更高较新生态建设中CLIP 在文生图中的核心作用Stable Diffusion 使用 CLIP 文本编码器将 prompt 转为条件向量引导扩散过程——CLIP 的对齐能力直接决定了文生图的语义准确性。八、总结维度核心要点图文对齐基础CLIP 对比学习是多模态语义统一的基石SigLIP 是工程上更稳定的改进版VLM 架构视觉编码器 对齐层 LLM 三件套MLP 投影是最简且有效的对齐方案LLaVA 价值以最小代价验证了CLIP MLP LLM路线的可行性开源生态奠基者高分辨率处理动态分辨率切片是解决细粒度视觉理解OCR、图表的关键工程手段跨模态嵌入ImageBind 将六种模态统一是多模态 RAG 与检索的重要基础设施文生图趋势扩散模型主导Flow MatchingFLUX/SD3正以更快速度、更高质量取而代之多模态技术的本质是打破模态壁垒构建统一的感知-理解-生成能力。从 CLIP 的对齐到 LLaVA 的对话从扩散模型的生成到 Gemini 的原生多模态——每一步都在拓宽 AI 能感知和理解的世界边界。掌握这条技术脉络是迈入下一代 AI 应用开发的必经之路。参考资料Radford et al. — Learning Transferable Visual Models From Natural Language Supervision (CLIP), ICML 2021Liu et al. — Visual Instruction Tuning (LLaVA), NeurIPS 2023Liu et al. — Improved Baselines with Visual Instruction Tuning (LLaVA-1.5), CVPR 2024Zhai et al. — Sigmoid Loss for Language Image Pre-Training (SigLIP), ICCV 2023Girdhar et al. — ImageBind: One Embedding Space To Bind Them All, CVPR 2023Rombach et al. — High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion), CVPR 2022Chen et al. — InternVL: Scaling up Vision Foundation Models, CVPR 2024