【Qwen3】Qwen3是MoE,Qwen3.5 原生多模态
1. 关于 Qwen3[1] Qwen3 Technical Reporthttps://arxiv.org/pdf/2505.09388核心架构变化混合专家模型 (MoE)指出 Qwen3 包含Dense稠密和Mixture-of-Experts (MoE)两种架构。这相比 Qwen2.5主要为 Dense是一个重大升级旨在提高训练和推理效率。参数规模从 0.6B 到 235B 不等。关键技术创新更先进的RoPE变体或支持更超长上下文如 256K。SwiGLU FFN的进一步优化。GQA (Grouped-Query Attention)的广泛应用或优化为 MQAMulti-Query Attention以加速推理。RMSNorm继续使用。多语言能力强化了对更多语言的零样本/少样本支持。2. 关于 Qwen 3.5Qwen 3.5 Explained: Architecture, Upgrades Over Qwen 3核心定位原生多模态 (Native Multimodal)。这意味着它不仅仅是文本模型而是在架构层面原生支持视觉、音频、文本的联合建模。架构升级点多模态输入头可能引入了新的 Tokenizer 或投影层用于处理图像、视频和音频特征直接注入 Transformer 块。Agent 能力架构中可能嵌入了工具调用Tool Use、代码执行和长程规划的特殊模块或训练信号。推理效率针对多模态推理进行了专门优化可能在 MoE 路由机制上有所调整以优先激活多模态相关的专家。上下文窗口可能支持更长的多模态上下文例如同时理解长视频和长文档。模块对比Qwen3的核心特征是MoE 架构和235B 规模的大模型。Qwen 3.5的核心特征是原生多模态 (Vision/Audio/Text)和Agent 智能体能力。模块Qwen2.5Qwen3Qwen 3.5基本架构Dense TransformerDense MoEDense MoE位置编码RoPE优化版 RoPE / 更超长上下文优化版 RoPEFFNSwiGLUSwiGLUSwiGLU归一化RMSNormRMSNormRMSNorm注意力GQA/MQAGQAGQA模态纯文本纯文本(主要)原生多模态(文本视觉音频)主要用途通用对话、代码、数学高效推理、更大规模任务多模态理解、Agent 智能体