2026年4月3日ollama 发布了v0.20.0版本。这次更新的核心非常明确Gemma 4 正式加入支持并且围绕模型推理、音频能力、Tokenizer、视觉测试、转换器、OpenAI 音频接口等多个方向进行了集中增强。如果你关注本次更新可以直接从两个关键词理解Gemma 4音频与推理能力升级下面按照本次版本更新内容逐项整理成一篇完整的技术更新说明。一、Gemma 4 正式加入支持本次 v0.20.0 最重要的变化就是Gemma 4相关支持的加入。更新中给出了多个可直接运行的模型规格1Effective 2BE2B运行命令ollama run gemma4:e2b这是 Gemma 4 的有效 2B 版本适合轻量场景使用。2Effective 4BE4B运行命令ollama run gemma4:e4b这是 Gemma 4 的有效 4B 版本在能力和资源消耗之间做了更平衡的选择。326BMixture of Experts model with 4B active parameters运行命令ollama run gemma4:26b这是一个MoEMixture of Experts模型描述中说明其4B active parameters。431BDense运行命令ollama run gemma4:31b这是 Gemma 4 的31B Dense版本属于更大规模的稠密模型。从这次发布的信息来看Gemma 4 已经形成了较完整的规格覆盖从轻量到大模型都提供了支持方式用户可以按资源和场景选择对应版本。二、What’s Changed本次更新涉及的关键内容本次版本的更新记录非常集中主要围绕 Gemma 4、音频、Tokenizer、文档、推理与测试展开。下面逐条梳理。三、文档更新首先是文档相关更新docs: update pi docs这说明本次版本中对 pi 相关文档进行了更新。虽然内容本身不多但说明文档层面同步跟进了新版本变化方便用户查阅和使用。四、Tokenizer 增强支持 SentencePiece-style BPE本次更新中有一个非常关键的底层能力变化tokenizer: add SentencePiece-style BPE support这表示 Tokenizer 新增了SentencePiece 风格的 BPE 支持。这一变化对于模型适配和分词处理非常重要尤其是在处理不同模型格式与分词规则时可以提升兼容性。与此同时后续也有与 tokenizer 相关的配套修复mlx: respect tokenizer add_bos_token setting in pipeline这个改动说明在 pipeline 中会尊重 tokenizer 的add_bos_token设置。换句话说Tokenizer 的行为会更贴合配置避免在处理输入时出现不一致情况。五、Gemma 4 的模型支持与转换器更新1Gemma 4 GGML 模型支持更新中明确写到gemma4: add Gemma 4 GGML model support这表示 Gemma 4 的 GGML 模型支持已经加入。2转换器更新适配新的 weight drop 命名gemma4: update converter for new weight drop naming这说明 Gemma 4 相关转换器已经根据新的 weight drop 命名进行了更新。这是模型转换流程中非常关键的一环确保新版本模型文件命名和导入过程能够顺利对接。六、音频能力大幅增强这次 v0.20.0 在音频方向的变化非常密集可以说是重点之一。1添加音频支持使用 USM conformer encoder更新内容gemma4: add audio support with USM conformer encoder这表明 Gemma 4 新增了音频支持并且使用的是USM conformer encoder。2OpenAI 音频 API 支持与能力检测更新内容gemma4: add OpenAI audio API support and capability detection这说明本次版本已经加入了OpenAI 音频 API 支持并且还包含capability detection也就是能力检测机制。3音频输入支持更新内容gemma4: add audio input support for run command这意味着在 run 命令中已经支持音频输入。4新增转写命令更新内容gemma4: add transcribe command (ollama transcribe MODEL)这次新增了一个转写命令ollama transcribe MODEL这对于音频转文字场景非常直接命令形式也很清晰。5增加 OpenAI 音频转写 API 和 input_audio 支持更新内容gemma4: add OpenAI audio transcription API and input_audio support这进一步完善了音频能力不仅是输入和转写还补充了与 OpenAI 音频转写 API 相关的支持以及 input_audio 能力。6音频输入改为 dropped file attachments更新内容cmd: simplify audio input to dropped file attachments这说明音频输入在命令层面被简化为dropped file attachments使用方式更直接。从这一组更新可以看出v0.20.0 在音频方向完成了从输入、转写、API 到命令行体验的一整套补强。七、Gemma 4 解析、渲染与集成测试支持本次更新还有一组围绕 Gemma 4 的基础设施改进gemma4: add parser, renderer, and integration test plumbing这说明已经加入了parser、renderer、integration test plumbing。也就是说Gemma 4 在解析、渲染以及集成测试方面的配套设施已经补上。1渲染器修复输出 BOS tokengemma4: fix renderer to emit BOS token这是一个非常具体的修复说明 renderer 现在会正确输出BOS token。2渲染器重写与 HF Jinja2 模板完全一致gemma4: rewrite renderer to match HF Jinja2 template exactly这说明渲染器被重写以确保与 HF Jinja2 模板保持完全一致。这个变化通常意味着模型输入模板的行为会更加标准化减少模板差异带来的结果偏差。八、MoE 相关增强与修复Gemma 4 的 26B 版本是 MoE 模型因此 MoE 相关改动非常关键。1为 MoE router 增加 per_expert_scale并修复 moe_intermediate 问题更新内容gemma4: add per_expert_scale to MoE router and fix moe_intermediate_s…虽然后半部分在记录中被截断但已经明确看到两个重点为 MoE router 增加per_expert_scale修复moe_intermediate_s…相关问题2修复 MoE fused gate_up split 和 multiline tool-call arg parsing更新内容gemma4: fix MoE fused gate_up split and multiline tool-call arg parsing这说明本次对 MoE 的 fused gate_up split 做了修复同时还修复了multiline tool-call arg parsing。3MoE block 字段对齐格式调整更新内容Format Gemma4 MoE block field alignment这是一个格式层面的整理说明 Gemma4 MoE block 的字段对齐做了统一和规范化。从这些信息可以看出Gemma 4 的 MoE 版本在结构、解析、格式与计算路径方面都做了较完整的修复和优化。九、视觉测试与 thinking 测试增强更新中还有测试相关增强integration: improve vision test robustness and add thinking tests这表示集成测试进一步增强了视觉测试的稳定性同时新增了 thinking tests。从结果上看这类更新主要是为了提升整体验证能力让新版本在视觉相关场景和推理相关场景下更加可靠。十、Gemma 4 音频测试与 OpenAI API 覆盖音频相关不仅有能力支持也同步加入了测试覆盖integration: add gemma4 audio tests including OpenAI API coverage这说明本次版本已经加入了 Gemma 4 音频测试并且包括 OpenAI API 的覆盖。这和前面音频能力的增强是相互呼应的说明该版本并不是只做了功能接入也同步补齐了对应验证。十一、Gemma 4 视觉模型注释与字段格式调整更新记录中还有一些针对模型结构和代码可读性的整理Remove redundant comments in gemma4 vision modelFormat Gemma4 MoE block field alignment前者表示移除了 Gemma 4 视觉模型中的冗余注释。后者则对 Gemma4 MoE block 的字段对齐格式进行了调整。这类更新虽然看起来偏细节但对于代码维护、结构统一和后续协作非常重要。十二、内存缓存与推理缓存优化本次更新里还有一项和缓存相关的改动use 4096 kvcache.NewSWAMemCachegemma4: use full SWA memory for better cache reuse这说明缓存机制做了调整使用了4096 kvcache.NewSWAMemCache同时使用full SWA memory来获得更好的 cache reuse这类优化通常和推理效率、上下文缓存复用体验有关是底层能力增强的一部分。十三、Gemma 4 clamps 初始化与后端加载修复更新记录中还有gemma4: initialize clamps after backend load这表示 clamps 的初始化时机调整到了 backend load 之后。从描述来看这是一个初始化顺序上的修复用于保证加载流程更稳定。十四、Gemma 4 GGML 改进合并更新记录最后还有一个重要的合并信息Merge pull request from gemma4-ggml-improvements这说明本次版本把 Gemma 4 的 GGML 改进进行了合并和前面提到的 GGML model support、converter 更新等内容形成闭环。十五、本次 v0.20.0 更新总结整体来看ollama v0.20.0 这次更新可以概括为几个核心方向Gemma 4 正式上线提供了 E2B、E4B、26B、31B 多种规格支持 GGML 模型音频能力全面增强支持音频输入新增转写命令增加 OpenAI 音频 API 与 transcription API 支持支持 input_audio简化音频输入方式Tokenizer 和模板能力增强增加 SentencePiece-style BPE 支持pipeline 尊重 add_bos_tokenrenderer 重写并修复 BOS token 输出MoE 与推理路径优化增加 per_expert_scale修复 MoE 相关问题调整字段格式和分裂逻辑改进缓存复用测试与工程能力增强视觉测试稳定性提升新增 thinking tests补充 Gemma 4 音频测试与 OpenAI API 覆盖