时间:2026年5月20日
地点:美国加州山景城
人物:谷歌公司、DeepMind
事件详情:在Google I/O 2026开发者大会上,谷歌发布Gemini Omni多模态生成模型。该模型支持视频内容实时编辑与元素替换功能,用户可通过对话形式直接修改视频素材。Gemini Omni融合了Nano Banana与Veo等生成技术,未来将扩展至全模态内容生成领域。作为一款真正的世界模型,Gemini Omni能够理解动力学规律、动能转换与重力效应,可直接应用于前沿机器人的训练。
背景:Gemini Omni并非传统意义上的多模态模型,谷歌将其定义为一个真正意义上的世界模型。其本质是一套能够将任何输入模态,包括文本、图像、视频、音频,转化为任何输出模态的统一网络。在演示中,用户仅通过自然的对话沟通,就能让Omni将一段复杂的关于氨基酸的定格动画短片进行精准编辑,无论是替换背景、调整分镜还是改变角色的物理运动轨迹,模型均能通过对话实时渲染输出高品质的电影级视频。
影响:
- 全模态生成能力突破,实现文本、图像、视频、音频的自由转换
- 世界模型理解物理规律,可应用于机器人训练
- 视频实时编辑功能革新内容创作流程
- 对话式视频编辑降低专业内容创作门槛
总结:Gemini Omni代表了多模态AI向世界模型的重要跃迁,不仅实现了全模态内容的生成与转换,更具备了对物理世界的直观感知能力,为视频创作、机器人训练等领域带来革命性突破。
参考来源:
- https://www.thepaper.cn/newsDetail_forward_33201567
- https://k.sina.com.cn/article_7857201856_1d45362c001905pf10.html
- http://news.pconline.com.cn/2153/21538451.html








