2026-05-20 08:18

谷歌发布Gemini Omni多模态模型，视频生成迎来关键突破

时间：2026年5月20日

地点：美国加州山景城

人物：谷歌、DeepMind、Demis Hassabis

事件详情：诺贝尔物理学奖获得者、Google DeepMind负责人哈萨比斯在本届I/O大会正式发布Gemini Omni，这是Gemini模型家族迄今为止能力最为全面的版本。Omni顾名思义，意指全能，该模型在处理文字、图像、视频、音频等多种模态信息时，展示出前所未有的流畅性与深度。

背景：Gemini Omni是一款基于谷歌在世界模型方面积累的新型视频生成模型。按照谷歌的介绍，Gemini Omni可以基于多种输入生成视频，并支持对话式编辑。用户可以通过自然语言修改角色、背景和场景，也可以上传自拍并将其转换成其他风格或内容。

影响：
- 未来Omni将能够根据任何输入生成任何输出
- 首款模型Gemini Omni Flash将于今年夏季推出
- Gemini 3.5 Flash生成输出Token的速度大约是其他前沿模型的4倍
- 谷歌扩展了SynthID验证功能，用户可以询问一张图片是否由AI生成
- SynthID目前已经为10亿张图片和视频以及6万年的音频添加了水印

总结：Gemini Omni的发布标志着多模态AI进入新阶段，视频生成能力实现关键突破，AI生成内容识别能力同步增强。

参考来源：
- https://www.nbd.com.cn/articles/2026-05-20/4400121.html
- https://k.sina.com.cn/article_7857201856_1d45362c001905o958.html
- https://k.sina.com.cn/article_7857201856_1d45362c001905o2fw.html

热门AI工具推荐