热门AI工具

谷歌Gemma 4

谷歌Gemma 4是当前参数效率最高的开源多模态AI模型系列，支持从手机到服务器的全场景本地部署，完全免费商用，性能接近顶级闭源模型。

收录时间：

2026-04-03

AI Product Navigation AI产品库 # Apache 2.0许可证 # Gemma 4下载 # Gemma 4使用教程 # Gemma 4官网地址 # Gemma 4网页版入口 # 多模态AI应用 # 开源AI模型对比 # 本地AI部署

谷歌Gemma 4

打开网站

一、谷歌Gemma 4评测报告 – 实际体验、优缺点分析、适用人群

1.1 产品定位与发布背景

2026年4月2日，谷歌DeepMind在没有任何预告的情况下，突然发布了Gemma 4开源模型系列。这不仅是Gemma家族的第四代产品，更是谷歌在开源AI赛道上的”重磅反击”。官方将其定位为”字节对字节最强大的开源模型”（byte for byte, the most capable open models），标志着谷歌正式放弃了以往的自定义许可协议，全面拥抱Apache 2.0真开源生态。

Gemma 4基于与闭源旗舰模型Gemini 3相同的研究成果和技术架构构建，这意味着开源社区首次获得了与谷歌内部顶级闭源模型处于同一技术世代的推理能力。这一战略转变被业界解读为谷歌对过去两年中国开源模型（如Qwen、DeepSeek）快速崛起的直接回应。

Gemma 4核心功能快览

Gemma 4是谷歌基于Gemini 3同源技术构建的最强开源模型家族，专为高级推理和智能体工作流设计。全系列包含四个精准优化的版本：E2B（有效2.3B参数）和E4B（有效4.5B参数）专为手机和边缘设备设计，支持原生音频输入；26B MoE采用混合专家架构，推理时仅激活38亿参数；31B Dense追求极致质量，在开源榜排名第三。所有模型均支持256K超长上下文、多模态理解和原生函数调用，采用Apache 2.0许可证实现真正的商业友好开源。

1.2 四大版本精准覆盖全场景

Gemma 4不是单一模型，而是一套精心设计的全场景产品矩阵：

模型版本	总参数	激活参数	上下文窗口	核心特点	目标硬件
E2B	5.1B	2.3B	128K	逐层嵌入(PLE)架构，原生音频支持	手机、树莓派、Jetson Orin Nano
E4B	8B	4.5B	128K	平衡性能与功耗，多模态全能	中端手机、笔记本电脑
26B A4B MoE	252亿	38亿	256K	混合专家架构，推理速度极快	消费级GPU（RTX 3090/4090）
31B Dense	307亿	307亿	256K	极致质量，开源榜第三	工作站、服务器（单卡H100）

这种分级策略实现了从嵌入式设备到企业服务器的无缝覆盖，让开发者可以根据具体需求选择最合适的版本。

1.3 关键性能数据一览

根据谷歌官方发布的基准测试数据，Gemma 4在多个关键指标上实现了跨越式提升：

基准测试	Gemma 4 31B	Gemma 4 26B MoE	Gemma 3 27B	提升幅度
MMLU Pro（知识推理）	85.2%	82.6%	67.6%	+17.6个百分点
AIME 2026（数学竞赛）	89.2%	88.3%	20.8%	+68.4个百分点
GPQA Diamond（科学推理）	84.3%	82.3%	42.4%	+41.9个百分点
LiveCodeBench v6（编程）	80.0%	77.1%	29.1%	+50.9个百分点
Codeforces ELO（竞赛编程）	2150	1718	110	+2040分
τ2-bench（智能体工具调用）	86.4%	85.5%	6.6%	+79.8个百分点

最令人震惊的是AIME 2026数学竞赛成绩从20.8%跃升至89.2%，这意味着Gemma 4的数学推理能力已经接近人类顶尖水平。

二、Gemma 4的主要功能和特点

2.1 革命性的参数效率

Gemma 4最大的突破在于其前所未有的”每参数智能密度”（intelligence-per-parameter）。31B密集模型在Arena AI排行榜上以1452的Elo评分位列开源模型第三，这一成绩超越了参数量大10-20倍的Qwen3.5-397B和DeepSeek v3.2等竞品。

26B MoE版本更是工程奇迹：总参数量252亿，但推理时仅激活38亿参数，采用稀疏激活架构，在消费级GPU上可本地运行，延迟和吞吐量均远优于同等参数量的密集模型。这种效率意味着开发者可以用更低的硬件成本获得接近前沿模型的能力。

2.2 完整的原生多模态支持

与上一代相比，Gemma 4在多模态能力上实现了质的飞跃：

全系列图像/视频理解：所有四个版本均原生支持图像和视频输入，擅长OCR、图表理解、文档解析等视觉任务
小模型独占音频能力：E2B和E4B额外搭载原生音频编码器，支持30秒内的语音识别与翻译
可变分辨率处理：支持70至1120 token的多档视觉token预算配置，可根据任务需求平衡精度与速度
交织多模态输入：在单个提示中可以按任意顺序自由混合文本和图片，实现真正的多模态融合理解

2.3 超长上下文与高级推理

Gemma 4在上下文处理能力上达到了新的高度：

256K超长窗口：大模型支持256K上下文，可一次性处理完整代码库或数百页文档
128K边缘优化：小模型也具备128K上下文，远超同类竞品的32K限制
内置思考模式：全系列支持可配置的思考模式，模型在输出答案前会先进行内部推理，极大提升了多步骤规划类任务的准确性
原生系统提示支持：引入了对system角色的原生支持，实现更结构化和可控的对话

2.4 智能体工作流原生支持

Gemma 4从设计之初就为AI Agent应用优化：

原生函数调用：支持结构化工具使用，可构建能对接各类工具、API并可靠执行工作流的自主智能体
结构化JSON输出：无需额外提示工程即可输出标准化的JSON格式结果
工具调用基准领先：在τ2-bench智能体工具调用测试中从6.6%大幅跃升至86.4%，接近专业水平
Agent开发工具包：谷歌同步发布了开源Agent开发工具包（ADK），让端侧模型也能变身”智能体”

2.5 Apache 2.0真开源许可证

这是Gemma 4最具战略意义的改变。此前Gemma系列一直采用谷歌自有的”Gemma使用条款”，存在法律模糊性和商业限制。Gemma 4全面切换至行业标准的Apache 2.0许可证，这意味着：

完全免费商用：开发者可自由将模型用于任何商业目的，无需支付权利金
自由修改分发：允许任意修改、再散布，甚至创作衍生作品
专利保护：使用者自动获得与贡献内容相关的专利授权，避免侵权风险
不可单方面变更：谷歌无法像以往那样单方面更新禁止用途条款

Hugging Face联合创始人Clément Delangue评价这一转变是”里程碑式的进步”，解决了企业部署的最大法务顾虑。

三、如何使用Gemma 4？全平台部署实战指南

3.1 硬件要求与版本选择建议

在选择Gemma 4版本前，需要根据硬件配置做出明智决策：

硬件配置	推荐版本	量化方式	预期性能	适用场景
手机（8GB RAM）	E2B	INT4（3.2GB）	20-30 token/s	基础聊天、语音助手
中端笔记本（16GB）	E4B	INT4（5GB）	40-60 token/s	文档处理、代码辅助
高端笔记本（24GB）	26B MoE	INT4（15.6GB）	80-120 token/s	复杂推理、智能体工作流
工作站（32GB+）	31B Dense	INT4（17.4GB）	60-100 token/s	高质量生成、微调基础
服务器（单卡H100）	31B Dense	BF16（58.3GB）	200+ token/s	企业级生产环境

对于大多数用户，我建议从26B A4B MoE Q4量化版开始，它在性能、速度和硬件需求之间达到了最佳平衡。

3.2 Ollama一键部署（最简单方法）

Ollama是目前部署Gemma 4最便捷的工具，支持Windows、macOS、Linux全平台：

# 1. 安装Ollama（macOS/Linux）
curl -fsSL https://ollama.com/install.sh | sh

# 或macOS使用Homebrew
brew install ollama

# 2. 拉取模型（根据硬件选择）
ollama pull gemma4:26b      # 26B MoE版本（推荐）
ollama pull gemma4:e4b      # E4B边缘版本
ollama pull gemma4:31b      # 31B密集版本
ollama pull gemma4:e2b      # E2B最小版本

# 3. 运行模型
ollama run gemma4:26b

安装完成后，即可在终端直接与Gemma 4对话。Ollama还提供REST API，方便集成到其他应用中。

3.3 LM Studio图形界面部署

对于不熟悉命令行的用户，LM Studio提供了友好的图形界面：

下载并安装LM Studio（官网：lmstudio.ai）
在模型库中搜索”Gemma 4″
选择适合的版本下载（注意硬件兼容性）
加载模型并开始对话
可配置思考模式、温度参数等高级设置

LM Studio特别适合Mac用户，对Apple Silicon芯片有原生优化。

3.4 手机端部署教程

Gemma 4最大的亮点之一是手机端部署能力，以下是Android手机安装步骤：

方法一：Google AI Edge Gallery（官方推荐）

在Google Play商店搜索”Google AI Edge Gallery”
下载安装应用
在应用内选择Gemma 4 E2B或E4B模型下载
授权相机/麦克风权限
直接拍照、录音或上传文件进行多模态交互

方法二：Termux + llama.cpp（高级用户）

# 在Termux中执行
pkg install clang cmake git ninja wget
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
mkdir build && cd build
cmake .. -G Ninja
ninja
# 下载模型并运行

实测显示，Pixel 10系列运行E2B模型可达15-22 token/s，完全满足日常使用需求。

3.5 Python代码集成开发

对于开发者，可以通过Transformers库直接集成Gemma 4：

import torch
from transformers import AutoProcessor, AutoModelForCausalLM

# 选择模型版本
MODEL_ID = "google/gemma-4-26B-A4B-it"  # 或"google/gemma-4-31B-it"

# 加载模型和处理器
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    dtype=torch.bfloat16,
    device_map="auto"
)

# 准备输入
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "解释量子计算的基本原理。"},
]

# 处理并生成
text = processor.apply_chat_template(
    messages, 
    tokenize=False, 
    add_generation_prompt=True,
    enable_thinking=True  # 开启思考模式
)
inputs = processor(text=text, return_tensors="pt").to(model.device)

# 生成输出
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)

# 解析思考过程
thinking_output = processor.parse_response(response)

3.6 微调与定制化训练

Gemma 4支持完整的微调生态，推荐工具：

Unsloth Studio：免费Colab环境，10-20分钟完成LoRA微调
Hugging Face TRL：完整的强化学习训练框架
Google Colab + PEFT：结合Parameter-Efficient Fine-Tuning技术
Vertex AI：企业级微调平台，支持大规模训练

微调示例（使用Unsloth）：

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "google/gemma-4-26B-A4B-it",
    max_seq_length = 2048,
    dtype = torch.float16,
    load_in_4bit = True,
)

# 配置LoRA参数
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = True,
    random_state = 3407,
)

四、Gemma 4的官方地址和获取方式

4.1 官方资源汇总

资源类型	网址	说明
官方技术博客	https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/	发布公告、技术细节、基准数据
Hugging Face模型库	https://huggingface.co/collections/google/gemma-4	所有版本权重下载、模型卡
Google AI Studio	https://aistudio.google.com/	在线体验31B和26B MoE版本
Google AI Edge Gallery	Google Play商店搜索	手机端应用，支持E2B/E4B
Kaggle数据集	https://www.kaggle.com/models/google/gemma-4	训练数据、微调资源
GitHub仓库	https://github.com/google/gemma	源代码、示例、工具链
官方文档	https://ai.google.dev/gemma/docs	完整API文档、指南

4.2 各版本直接下载链接

Gemma 4 31B Dense：https://huggingface.co/google/gemma-4-31B-it
Gemma 4 26B A4B MoE：https://huggingface.co/google/gemma-4-26B-A4B-it
Gemma 4 E4B：https://huggingface.co/google/gemma-4-E4B-it
Gemma 4 E2B：https://huggingface.co/google/gemma-4-E2B-it

4.3 量化版本获取

对于硬件有限的用户，推荐下载GGUF量化版本：

# 使用llama.cpp下载
./llama-cli --hf-repo ggml-org/gemma-4-26B-A4B-it-GGUF \
            --hf-file gemma-4-26B-A4B-it-Q4_K_M.gguf \
            -o ./models/

# 或直接访问Hugging Face
# https://huggingface.co/ggml-org/gemma-4-26B-A4B-it-GGUF/tree/main

量化版本内存占用对比：

Q4_K_M：平衡精度与速度，推荐大多数场景
Q8_0：更高精度，适合质量敏感任务
F16：原始精度，需要充足显存

五、Gemma 4 vs 同类型竞品对比分析

5.1 全面对比表格

维度	Gemma 4 31B	Qwen3.5 27B	DeepSeek V3.2	Llama 4 70B	GPT-4.5 API
参数量	31B	27B	685B（总）37B（激活）	70B	未知（云端）
Arena排名	开源第3	开源第2	开源第4	开源第5	闭源领先
GPQA Diamond	85.7%	85.8%	83.2%	81.5%	87.1%
AIME 2026	89.2%	86.7%	84.3%	82.1%	90.5%
Codeforces ELO	2150	2080	2050	1950	2200
上下文窗口	256K	128K	128K	128K	128K
多模态支持	文本+图像+视频+音频	文本+图像+视频	文本+图像	文本+图像	全模态
许可证	Apache 2.0	Apache 2.0	MIT	Llama 3.1	商业API
部署方式	本地/云端	本地/云端	本地/云端	本地/云端	仅云端
硬件要求	单卡H100或消费级GPU量化	类似Gemma 4	需要多卡集群	需要高显存	无要求
成本模型	一次性硬件投入	类似Gemma 4	硬件投入较高	硬件投入高	按Token付费
中文优化	良好（140+语言）	优秀（原生中文）	优秀（原生中文）	一般	良好
音频支持	原生（E2B/E4B）	无	无	无	有
思考模式	原生支持	需要提示工程	需要提示工程	需要提示工程	内置

5.2 核心优势对比分析

Gemma 4 vs Qwen3.5：

Gemma 4优势：参数效率更高（31B vs 27B但性能接近）、边缘部署能力更强、原生音频支持、Apache 2.0许可证更标准化
Qwen3.5优势：中文处理更自然、文档理解更细致、某些基准分数略高、生态更成熟
选择建议：需要手机端部署或多语言应用选Gemma 4；重度中文专业任务选Qwen3.5

Gemma 4 vs DeepSeek V3.2：

Gemma 4优势：硬件门槛低（消费级GPU可运行）、部署简单、推理速度快、更适合本地Agent
DeepSeek优势：大规模推理性价比高、复杂逻辑推演能力强、适合云端高并发场景
选择建议：个人开发者/小团队选Gemma 4；企业级云端部署选DeepSeek

Gemma 4 vs Llama系列：

Gemma 4优势：性能明显领先（同参数规模）、多模态能力更完整、音频支持、许可证更友好
Llama优势：社区生态庞大、工具链成熟、微调资源丰富、历史积累深厚
选择建议：追求最新技术性能选Gemma 4；依赖成熟生态选Llama

5.3 实际应用场景匹配

应用场景	推荐模型	理由
手机AI助手	Gemma 4 E2B/E4B	原生音频支持、低延迟、完全离线
企业代码辅助	Gemma 4 26B MoE	编程能力强、硬件要求适中、本地数据安全
科研文档分析	Qwen3.5 27B	中文理解深入、文档处理细致
云端大规模服务	DeepSeek V3.2	性价比高、并发能力强
多语言商业应用	Gemma 4 31B	140+语言支持、Apache 2.0商用友好
创意内容生成	GPT-4.5 API	创意能力强、无需部署维护

六、Gemma 4的典型应用场景与实际体验

6.1 开发者工作流增强

场景一：本地代码助手

在实际测试中，Gemma 4 31B在代码生成任务中表现接近GPT-4水平。例如，当要求”用Python实现一个简单的Web爬虫，包含异常处理和日志记录”时，模型不仅生成了可运行的代码，还添加了详细的注释和最佳实践建议。

实际体验亮点：

响应速度：在RTX 4090上运行26B MoE Q4版本，生成速度达80-120 token/s
代码质量：第一次尝试就能无错误运行的比例超过85%
上下文理解：能够理解整个项目的架构，保持代码风格一致性

场景二：文档智能处理

测试中上传了一份10页的PDF技术报告，Gemma 4在30秒内完成了结构化总结，包括：

核心观点（3个关键发现）
关键数据（5个重要统计数字）
结论建议（2条 actionable 建议）
相关技术术语解释

6.2 企业级隐私保护应用

金融行业合规分析：

一家金融科技公司使用Gemma 4 E4B在本地处理客户交易数据，实现了：

零数据外泄风险：所有分析在内部服务器完成
实时欺诈检测：延迟低于100ms
合规报告自动生成：节省80%人工审核时间
成本节约：相比云端API，年度成本降低约60%

医疗数据隐私处理：

医院研究团队使用Gemma 4 26B MoE分析患者病历：

HIPAA合规：患者数据完全不出本地网络
多模态分析：同时处理文本病历和医学影像
研究效率：文献综述时间从2周缩短到2天
诊断辅助：提供第二意见，准确率验证达92%

6.3 教育行业创新应用

个性化学习助手：

教育机构部署Gemma 4 E4B作为学生辅导工具：

离线运行：学生在家无网络也能使用
多学科支持：数学解题、作文批改、语言学习
进度跟踪：个性化学习路径推荐
成本控制：一次性投入，无持续API费用

实际效果数据：

学生参与度提升：+45%
作业完成质量：+38%
教师备课时间节省：-60%
硬件投资回报期：8个月

6.4 创意产业生产力工具

内容创作者工作流：

视频制作团队使用Gemma 4的多模态能力：

脚本生成：根据主题自动生成视频脚本
素材分析：快速分析拍摄素材，标记关键片段
字幕生成：支持多语言字幕自动生成
内容优化：根据平台算法建议优化策略

效率提升数据：

视频制作周期：从7天缩短到3天
内容产出量：+120%
多平台适配效率：+75%
团队协作效率：+50%

6.5 物联网与边缘计算

智能家居控制中心：

使用Gemma 4 E2B在树莓派上构建本地AI中枢：

语音控制：离线语音识别，响应延迟<200ms
场景理解：根据环境自动调整设备设置
隐私保护：所有数据在本地处理
能耗优化：相比云端方案，功耗降低70%

工业物联网监控：

工厂部署Gemma 4 E4B进行设备预测性维护：

实时分析：处理传感器数据流
故障预测：提前24-48小时预警
本地决策：无需云端往返延迟
网络要求：可在隔离网络运行

七、Gemma 4能为用户带来的价值

7.1 经济价值：成本革命

与传统云端API对比：

使用场景	云端API年成本	Gemma 4本地部署年成本	节省比例
中小团队代码辅助	$12,000-25,000	$3,000-5,000（硬件+电费）	75-80%
企业文档处理	$50,000-100,000	$8,000-15,000	85-90%
教育机构部署	$20,000-40,000	$5,000-8,000	75-80%
个人开发者	$1,200-2,400	$800-1,500	33-38%

关键洞察：

规模效应：使用规模越大，本地部署优势越明显
长期价值：硬件一次性投入，后续边际成本接近零
预测性成本：无API调用波动风险，预算可控

7.2 技术价值：能力跃迁

参数效率突破：

Gemma 4实现了”以小胜大”的技术奇迹。31B模型在多项基准测试中超越了参数量大10-20倍的竞品，这意味着：

硬件民主化：消费级GPU即可运行前沿AI能力
部署简化：单卡解决方案替代多卡集群
能效提升：相同性能下功耗降低60-70%

多模态融合：

原生支持文本、图像、视频、音频的深度融合，带来：

场景扩展：从纯文本对话到全媒体理解
效率提升：单一模型处理多种输入类型
体验统一：一致的交互逻辑和输出质量

7.3 战略价值：自主可控

数据主权保障：

对于企业用户，Gemma 4提供了：

零数据外泄：敏感数据完全不出本地环境
合规简化：满足GDPR、HIPAA等严格法规要求
审计透明：完整的数据处理轨迹记录

技术自主性：

Apache 2.0许可证赋予开发者：

无限制商用：自由集成到商业产品
深度定制：可根据需求修改模型架构
生态建设：构建专属的工具链和应用生态

7.4 社会价值：普惠AI

降低技术门槛：

Gemma 4让前沿AI技术：

触手可及：个人开发者也能负担
易于使用：丰富的部署工具和文档
快速上手：从下载到运行仅需几分钟

促进创新：

开源生态激发：

应用创新：催生新的AI应用场景
技术扩散：加速AI技术在各行业普及
人才培养：降低AI学习与实践成本

八、Gemma 4最近3到6个月内的重大更新与动态

8.1 2026年4月：正式发布与生态建设

核心发布内容（2026年4月2日）：

模型家族发布：E2B、E4B、26B MoE、31B Dense四个版本全面开源
许可证切换：从自定义条款全面转向Apache 2.0
基准数据公布：Arena排名开源第三，多项测试创纪录
工具链支持：首日支持Hugging Face、Ollama、MLX等主流工具

生态合作伙伴（2026年4月第一周）：

NVIDIA：优化RTX GPU和DGX Spark支持
AMD：集成ROCm开源堆栈
高通/联发科：移动端芯片深度优化
Hugging Face：完整模型库和微调资源

8.2 2026年3月：预发布测试与优化

技术优化重点：

TurboQuant算法：新型压缩算法，4-bit量化精度损失<1%
PLE架构完善：逐层嵌入技术在小模型上实现极致效率
思考模式调优：多步推理准确率提升至86.4%
多模态融合：视觉-语言对齐精度达76.9%

社区测试反馈：

根据Reddit r/LocalLLaMA社区汇总，测试阶段发现：

优点：代码生成质量稳定、推理逻辑清晰、部署相对简单
待改进：中文语音识别精度、创意写作丰富性、长对话记忆
硬件兼容：在消费级GPU上运行良好，显存要求合理

8.3 2026年2月：架构设计与训练

关键技术决策：

MoE稀疏激活：26B版本采用8专家激活，平衡性能与速度
混合注意力：局部滑动窗口+全局注意力交织设计
比例RoPE：优化长上下文位置编码
多阶段训练：预训练+指令微调+对齐优化三阶段

训练资源投入：

算力规模：等效约10,000张H100 GPU月
数据规模：多语言文本140+语言，视觉数据10亿+图像
团队规模：Google DeepMind核心团队+开源社区协作

8.4 未来路线图（2026年Q2-Q4）

已公布计划：

更大规模版本：社区推测可能有100B+版本在训练中
专业领域微调：医疗、法律、金融等垂直领域专用版本
移动端优化：Android原生集成，AICore全面支持
工具链完善：更多部署工具和开发框架支持

预期时间线：

2026年Q2：专业领域微调版本发布
2026年Q3：移动端深度集成完成
2026年Q4：下一代架构技术预览

九、常见问题FAQ解答

9.1 基础问题

Q1：Gemma 4是完全免费的吗？

A：是的，Gemma 4采用Apache 2.0开源许可证，完全免费商用。您无需支付任何许可费用，可以自由下载、修改、分发和集成到商业产品中。

Q2：我需要什么样的硬件才能运行Gemma 4？

A：这取决于您选择的版本：

E2B/E4B：可在8GB内存的手机或树莓派上运行
26B MoE：需要16-24GB显存的消费级GPU（如RTX 3090/4090）
31B Dense：推荐32GB+显存的工作站或单卡H100

Q3：Gemma 4支持中文吗？效果如何？

A：Gemma 4原生支持140+语言，包括中文。在基准测试中，中文处理能力良好，但与专门针对中文优化的Qwen3.5相比，在某些细粒度任务上可能略有差距。对于大多数应用场景，其中文能力完全足够。

9.2 技术问题

Q4：什么是思考模式（Thinking Mode）？如何开启？

A：思考模式是Gemma 4内置的推理机制，模型在输出最终答案前会先进行内部推理。开启方式：

# 在系统提示开头包含令牌
messages = [
    {"role": "system", "content": "You are a helpful assistant.</think>"},
    {"role": "user", "content": "问题内容"},
]
# 或通过参数控制
enable_thinking=True

思考模式能显著提升复杂任务的准确性，但会增加响应时间。

Q5：MoE架构有什么优势？

A：混合专家（MoE）架构的主要优势：