谷歌大模型有哪些？全盘点一下

一、明星旗舰系列：Gemini（原 Bard 接班人）

这是目前谷歌主推、面向消费者和开发者的多模态大模型。它由 Google DeepMind 团队打造，2023 年底发布，直接对标 OpenAI 的 GPT-4 系列。

核心版本与特点

Gemini Ultra：最强版本，专为复杂推理、多模态理解设计。在 MMLU（大规模多任务语言理解）基准测试中首次超越人类专家。主要用于 Gemini Advanced 订阅服务。
Gemini Pro：平衡性能与速度的版本，免费面向公众。支持文本、图像、音频输入，输出文本。目前内置于 Gemini 网页版和 Google AI Studio 中。
Gemini Nano：端侧模型，专门为 Pixel 8 Pro 等手机优化，无需联网即可在本地完成录音摘要、智能回复等功能，强调隐私保护。
Gemini 1.5 Pro：2024 年 2 月推出的重大升级版，最大亮点是 100 万 token 的上下文窗口。你可以直接扔进去整本《三体》三部曲，甚至是一整段长达 1 小时的视频，它都能精准检索细节。

收费情况

免费：Gemini Pro 版本可免费使用。
付费：Gemini Advanced（采用 Ultra 模型）包含在 Google One AI Premium 计划中，月费约 19.99 美元，附赠 2TB 云存储空间。
API：开发者通过 Google AI Studio 调用 Gemini API，有免费额度，超出后按 token 计费。

入口链接

消费者版：https://gemini.google.com；开发者版：https://aistudio.google.com

二、开源/轻量级系列：Gemma

很多人不知道，谷歌其实有开源大模型，就是 Gemma。它基于 Gemini 相同的研究和技术，但专为开发者、研究者设计，体积小、可本地部署。

版本与特点

Gemma 2B 和 7B：参数规模分别为 20 亿和 70 亿，适合在个人电脑、笔记本电脑甚至单张 GPU 上运行。
CodeGemma：专门针对代码生成和补全优化的变体，适合辅助编程。
RecurrentGemma：采用循环神经网络架构的变体，推理时内存占用更低，适合长序列任务。

收费情况

完全免费，开源，且允许商用（需遵守 Gemma 使用条款）。可以在 Hugging Face、Kaggle 上直接下载权重。

入口链接

官方主页：https://ai.google.dev/gemma

三、代码与数学专用系列

谷歌针对特定垂直领域训练了专门的模型，这些模型往往在基准测试中屠榜，但公众认知度不高。

AlphaCode 2

定位：编程竞赛级代码生成模型。由 DeepMind 开发，是初代 AlphaCode 的升级版。
核心能力：在 Codeforces 编程竞赛平台上，其表现超过了 85% 的人类参赛者。它能理解复杂的问题描述、生成多步骤解决方案、并自我测试修正。
现状：目前尚未作为独立产品面向大众开放，主要用于研究和技术验证。

Minerva

定位：数学推理专用模型。擅长解决定量数学问题，包括微积分、概率论、物理方程等。
特点：使用 LaTeX 和自然语言混合输入，能输出带步骤的解题过程。已被集成到 Google Search 的“数学解答”功能中。

四、科学领域核武器：AlphaFold 系列

这是谷歌在 AI 领域最具影响力的产品之一，虽然它不写诗、不聊天，但拯救生命。由 DeepMind 开发。

AlphaFold 2 & AlphaFold 3

AlphaFold 2：2020 年发布，解决了生物学 50 年难题——蛋白质结构预测。它可以根据氨基酸序列，高精度预测蛋白质的三维结构。
AlphaFold 3：2024 年发布，从蛋白质扩展到几乎所有生命分子。它可以预测蛋白质、DNA、RNA 以及小分子药物之间的相互作用。
收费：AlphaFold 数据库对全球科研人员 免费开放。谷歌通过 AlphaFold Server 提供免费在线预测服务。

入口链接

AlphaFold 数据库：https://alphafold.ebi.ac.uk；AlphaFold Server：https://alphafoldserver.com

五、多模态与图像生成：Imagen 系列

谷歌的图像生成模型，目前主要作为技术储备和内部工具，尚未像 Midjourney 那样大规模开放。

Imagen 2 & Imagen 3

定位：文本到图像生成，强调照片级真实感和精准的文本理解。
特点：Imagen 2 被集成在 Google Cloud Vertex AI 中，供企业客户使用。Imagen 3 据说在图像质量、细节和光影处理上远超 DALL-E 3。
现状：普通用户无法直接使用 Imagen，但可以通过 Google 的 ImageFX 实验平台体验其部分能力。

入口链接

ImageFX 体验：https://aitestkitchen.withgoogle.com/tools/image-fx

六、音频与音乐：MusicLM & AudioLM

谷歌在音频生成领域的探索，虽然不如 Suno 火，但技术底蕴深厚。

MusicLM：根据文字描述生成 10 秒到 2 分钟的音乐片段。支持“一段钢琴独奏，带有爵士风格”这类提示，能生成高保真音频。
AudioLM：不仅能生成音乐，还能生成语音、环境音（如雨声、打字声）。它学习的是音频的“语义”和“声学”特征。
现状：目前以研究论文和演示页面为主，尚未作为独立产品发布。部分功能已集成到 Google 的“AI 音乐”实验中。

七、搜索与工作场景：嵌入的“隐形”模型

这些模型没有独立的品牌名称，但你在使用时正被它们驱动。

MUM（多任务统一模型）：驱动 Google 搜索的底层模型之一。它能理解 75 种语言，并跨文本、图像、视频理解复杂查询。例如，搜索“我去年在富士山脚下穿的那双红色登山鞋”，MUM 能理解你的意图。
PaLM 2：虽然名义上被 Gemini 取代，但 PaLM 2 的变体仍运行在 Google Workspace 的“帮我写”功能、Gmail 智能回复中。
BERT / LaMDA：早期奠基性模型。BERT 至今仍是 Google 搜索排名算法的重要组成部分；LaMDA 则是早期 Bard 的基础。

八、硬件底座：TPU（张量处理单元）

虽然 TPU 不是大模型，但它是所有谷歌大模型运行的基石。最新一代 TPU v5p 专为训练超大模型设计，能提供 459 TFLOPS 的算力。谷歌通过 Cloud TPU 向开发者出租算力，形成从芯片到模型到应用的闭环。

总结对比

模型系列	主要用途	是否免费	典型入口
Gemini	通用对话、多模态分析、编程	基础版免费，高级版付费	gemini.google.com
Gemma	本地部署、研究、二次开发	完全免费开源	ai.google.dev/gemma
AlphaFold	蛋白质/分子结构预测	科研免费	alphafoldserver.com
Imagen	图像生成	仅企业/实验	ImageFX
MusicLM	音乐/音频生成	仅研究演示	AI Test Kitchen

谷歌大模型有哪些？全盘点一下

相关 AI 产品

Gemini

相关话题