原文:Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start
三年前,谷歌推出 Gemini 时,目标是构建一个多模式大型语言模型——一个接受文本、图像、音频和视频训练的单一神经网络,可以生成任何这些格式的内容。
今天,在 Google I/O 开发者大会上,该公司通过 Gemini Omni 向这一目标迈出了具体的一步,这是一个新的多模式模型系列,谷歌首席执行官 Sundar Pichai 表示,它将能够“根据任何输入创建任何东西”。
Omni 将从视频开始。用户现在可以组合图像、音频、视频和文本,而不是简单地将这些输入拼接在一起,Omni 会跨所有这些输入产生一致的输出。其结果是高质量的视频反映了对物理、文化、历史和科学的理解。
Omni 还允许用户使用纯文本命令而不是复杂的编辑软件来编辑照片,类似于 Google 的 Nano Banana。
谷歌已经有了一个专门的视频模型 Veo,它可以让用户将文本和图像转换成视频,甚至可以直接和自定义头像。但 Google DeepMind 产品管理总监 Nicole Brichtova 表示,今天的发布不仅仅是 Veo 更新:“这是将 Gemini 的智能与我们媒体模型的渲染功能相结合的下一步。”
DeepMind 首席技术专家 Koray Kavukcuoglu 在周一的媒体吹风会上向记者提供了一个例子:当 Omni 收到一个简单的提示(例如“蛋白质折叠的粘土动画解释器”)时,它很快就呈现了一段定格动画解释器的视频,并配有画外音,“蛋白质从氨基酸链开始。它们折叠成 α 螺旋和称为 β 片层的扁平部分等模式,形成完美的三维形状。”
Omni 的长期愿景更为广泛,涉及使用该模型来执行从音频生成图像或从视频生成音频等操作。
“当我们第一次宣布 Gemini 时,这是我们第一个原生多模式的人工智能模型,”皮查伊说