2026年4月2日——Google DeepMind发布Gemma 4系列开源多模态模型,包含四个不同规模版本,支持文本、图像、音频和视频输入,采用Apache 2.0许可证,通过Hugging Face向全球开发者开放。
Gemma 4提供四个版本:E2B(2.3B有效参数)、E4B(4.5B有效参数)、31B稠密模型和26B混合专家模型。每个版本均支持128k或256k上下文窗口,并提供基础版和指令微调版。
Gemma 4引入多项架构创新:Per-Layer Embeddings为每层提供独立信息通道;Shared KV Cache消除冗余投影,降低推理开销;混合注意力机制和双RoPE配置支持长上下文。
多模态能力方面,Gemma 4支持图像和视频理解、音频输入(小型版本)、原生JSON输出、对象检测和指向、GUI元素检测、代码生成等。31B模型达到预估LMArena分数1452,26B MoE仅激活4B参数即达到1441分。
Gemma 4获得transformers、llama.cpp、MLX、WebGPU等广泛生态支持,所有版本均可部署在设备端,并支持TRL、Unsloth Studio等微调工具。Apache 2.0许可证允许商业使用和修改。
Gemma 4的发布标志着开源多模态模型进入新阶段,为设备端AI部署提供了新思路。









