谷歌大模型有哪些?全盘点一下

相关 AI 产品

相关话题

谷歌在大模型领域的布局远比外界想象的更庞大、更系统。除了广为人知的 Gemini,它还有专门面向开发者的 Gemma、用于科学研究的 AlphaFold 系列、以及隐藏在 Google Workspace 和搜索背后的数十个专用模型。如果只把目光放在聊天机器人上,你会错过谷歌真正的野心——一个从底层芯片到终端应用的完整 AI 生态。

一、明星旗舰系列:Gemini(原 Bard 接班人)

这是目前谷歌主推、面向消费者和开发者的多模态大模型。它由 Google DeepMind 团队打造,2023 年底发布,直接对标 OpenAI 的 GPT-4 系列。

核心版本与特点

  • Gemini Ultra:最强版本,专为复杂推理、多模态理解设计。在 MMLU(大规模多任务语言理解)基准测试中首次超越人类专家。主要用于 Gemini Advanced 订阅服务。
  • Gemini Pro:平衡性能与速度的版本,免费面向公众。支持文本、图像、音频输入,输出文本。目前内置于 Gemini 网页版Google AI Studio 中。
  • Gemini Nano:端侧模型,专门为 Pixel 8 Pro 等手机优化,无需联网即可在本地完成录音摘要、智能回复等功能,强调隐私保护。
  • Gemini 1.5 Pro:2024 年 2 月推出的重大升级版,最大亮点是 100 万 token 的上下文窗口。你可以直接扔进去整本《三体》三部曲,甚至是一整段长达 1 小时的视频,它都能精准检索细节。

收费情况

  • 免费:Gemini Pro 版本可免费使用。
  • 付费:Gemini Advanced(采用 Ultra 模型)包含在 Google One AI Premium 计划中,月费约 19.99 美元,附赠 2TB 云存储空间。
  • API:开发者通过 Google AI Studio 调用 Gemini API,有免费额度,超出后按 token 计费。

入口链接

消费者版:https://gemini.google.com;开发者版:https://aistudio.google.com

二、开源/轻量级系列:Gemma

很多人不知道,谷歌其实有开源大模型,就是 Gemma。它基于 Gemini 相同的研究和技术,但专为开发者、研究者设计,体积小、可本地部署。

版本与特点

  • Gemma 2B 和 7B:参数规模分别为 20 亿和 70 亿,适合在个人电脑、笔记本电脑甚至单张 GPU 上运行。
  • CodeGemma:专门针对代码生成和补全优化的变体,适合辅助编程。
  • RecurrentGemma:采用循环神经网络架构的变体,推理时内存占用更低,适合长序列任务。

收费情况

完全免费,开源,且允许商用(需遵守 Gemma 使用条款)。可以在 Hugging Face、Kaggle 上直接下载权重。

入口链接

官方主页:https://ai.google.dev/gemma

三、代码与数学专用系列

谷歌针对特定垂直领域训练了专门的模型,这些模型往往在基准测试中屠榜,但公众认知度不高。

AlphaCode 2

  • 定位:编程竞赛级代码生成模型。由 DeepMind 开发,是初代 AlphaCode 的升级版。
  • 核心能力:在 Codeforces 编程竞赛平台上,其表现超过了 85% 的人类参赛者。它能理解复杂的问题描述、生成多步骤解决方案、并自我测试修正。
  • 现状:目前尚未作为独立产品面向大众开放,主要用于研究和技术验证。

Minerva

  • 定位:数学推理专用模型。擅长解决定量数学问题,包括微积分、概率论、物理方程等。
  • 特点:使用 LaTeX 和自然语言混合输入,能输出带步骤的解题过程。已被集成到 Google Search 的“数学解答”功能中。

四、科学领域核武器:AlphaFold 系列

这是谷歌在 AI 领域最具影响力的产品之一,虽然它不写诗、不聊天,但拯救生命。由 DeepMind 开发。

AlphaFold 2 & AlphaFold 3

  • AlphaFold 2:2020 年发布,解决了生物学 50 年难题——蛋白质结构预测。它可以根据氨基酸序列,高精度预测蛋白质的三维结构。
  • AlphaFold 3:2024 年发布,从蛋白质扩展到几乎所有生命分子。它可以预测蛋白质、DNA、RNA 以及小分子药物之间的相互作用。
  • 收费:AlphaFold 数据库对全球科研人员 免费开放。谷歌通过 AlphaFold Server 提供免费在线预测服务。

入口链接

AlphaFold 数据库:https://alphafold.ebi.ac.uk;AlphaFold Server:https://alphafoldserver.com

五、多模态与图像生成:Imagen 系列

谷歌的图像生成模型,目前主要作为技术储备和内部工具,尚未像 Midjourney 那样大规模开放。

Imagen 2 & Imagen 3

  • 定位:文本到图像生成,强调照片级真实感和精准的文本理解。
  • 特点:Imagen 2 被集成在 Google Cloud Vertex AI 中,供企业客户使用。Imagen 3 据说在图像质量、细节和光影处理上远超 DALL-E 3。
  • 现状:普通用户无法直接使用 Imagen,但可以通过 Google 的 ImageFX 实验平台体验其部分能力。

入口链接

ImageFX 体验:https://aitestkitchen.withgoogle.com/tools/image-fx

六、音频与音乐:MusicLM & AudioLM

谷歌在音频生成领域的探索,虽然不如 Suno 火,但技术底蕴深厚。

  • MusicLM:根据文字描述生成 10 秒到 2 分钟的音乐片段。支持“一段钢琴独奏,带有爵士风格”这类提示,能生成高保真音频。
  • AudioLM:不仅能生成音乐,还能生成语音、环境音(如雨声、打字声)。它学习的是音频的“语义”和“声学”特征。
  • 现状:目前以研究论文和演示页面为主,尚未作为独立产品发布。部分功能已集成到 Google 的“AI 音乐”实验中。

七、搜索与工作场景:嵌入的“隐形”模型

这些模型没有独立的品牌名称,但你在使用时正被它们驱动。

  • MUM(多任务统一模型):驱动 Google 搜索的底层模型之一。它能理解 75 种语言,并跨文本、图像、视频理解复杂查询。例如,搜索“我去年在富士山脚下穿的那双红色登山鞋”,MUM 能理解你的意图。
  • PaLM 2:虽然名义上被 Gemini 取代,但 PaLM 2 的变体仍运行在 Google Workspace 的“帮我写”功能、Gmail 智能回复中。
  • BERT / LaMDA:早期奠基性模型。BERT 至今仍是 Google 搜索排名算法的重要组成部分;LaMDA 则是早期 Bard 的基础。

八、硬件底座:TPU(张量处理单元)

虽然 TPU 不是大模型,但它是所有谷歌大模型运行的基石。最新一代 TPU v5p 专为训练超大模型设计,能提供 459 TFLOPS 的算力。谷歌通过 Cloud TPU 向开发者出租算力,形成从芯片到模型到应用的闭环。

总结对比

模型系列 主要用途 是否免费 典型入口
Gemini 通用对话、多模态分析、编程 基础版免费,高级版付费 gemini.google.com
Gemma 本地部署、研究、二次开发 完全免费开源 ai.google.dev/gemma
AlphaFold 蛋白质/分子结构预测 科研免费 alphafoldserver.com
Imagen 图像生成 仅企业/实验 ImageFX
MusicLM 音乐/音频生成 仅研究演示 AI Test Kitchen

相关问题

  • Gemini 和 ChatGPT 到底哪个更强? 各有胜负。Gemini 在长上下文(100 万 token)和多模态原生理解上领先,ChatGPT 在插件生态和代码执行方面更成熟。实际使用建议都试试,看哪个更符合你的工作流。
  • 谷歌有类似 GPT-4o 的“全模态”模型吗? 有,Gemini 本身就是原生多模态的,它从一开始就训练文本、图像、音频、视频和代码。而 GPT-4o 是后来才融合的。
  • 谷歌开源模型 Gemma 能商用吗? 可以,但需遵守其使用条款。它采用自定义许可证,对月活用户数有限制,超过一定规模需向谷歌申请授权。
  • 普通人现在能体验到 AlphaFold 吗? 可以,通过 AlphaFold Server 网页版,输入蛋白质序列即可在线预测结构,完全免费,无需科学背景。
  • 谷歌大模型在中国大陆能用吗? 大部分官方服务(如 Gemini 网页版)目前受网络限制,无法直接访问。但开源模型 Gemma 可以自由下载使用,AlphaFold 数据库在中国科研机构中也有广泛使用。