Google 的 Gemini Omni 将图像、音频和文本转换为视频

原文：Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start

三年前，谷歌推出 Gemini 时，目标是构建一个多模式大型语言模型——一个接受文本、图像、音频和视频训练的单一神经网络，可以生成任何这些格式的内容。

今天，在 Google I/O 开发者大会上，该公司通过 Gemini Omni 向这一目标迈出了具体的一步，这是一个新的多模式模型系列，谷歌首席执行官 Sundar Pichai 表示，它将能够“根据任何输入创建任何东西”。

Omni 将从视频开始。用户现在可以组合图像、音频、视频和文本，而不是简单地将这些输入拼接在一起，Omni 会跨所有这些输入产生一致的输出。其结果是高质量的视频反映了对物理、文化、历史和科学的理解。

Omni 还允许用户使用纯文本命令而不是复杂的编辑软件来编辑照片，类似于 Google 的 Nano Banana。

谷歌已经有了一个专门的视频模型 Veo，它可以让用户将文本和图像转换成视频，甚至可以直接和自定义头像。但 Google DeepMind 产品管理总监 Nicole Brichtova 表示，今天的发布不仅仅是 Veo 更新：“这是将 Gemini 的智能与我们媒体模型的渲染功能相结合的下一步。”

DeepMind 首席技术专家 Koray Kavukcuoglu 在周一的媒体吹风会上向记者提供了一个例子：当 Omni 收到一个简单的提示（例如“蛋白质折叠的粘土动画解释器”）时，它很快就呈现了一段定格动画解释器的视频，并配有画外音，“蛋白质从氨基酸链开始。它们折叠成 α 螺旋和称为 β 片层的扁平部分等模式，形成完美的三维形状。”

Omni 的长期愿景更为广泛，涉及使用该模型来执行从音频生成图像或从视频生成音频等操作。

“当我们第一次宣布 Gemini 时，这是我们第一个原生多模式的人工智能模型，”皮查伊说

阅读原文 →

Google 的 Gemini Omni 将图像、音频和文本转换为视频 - 这仅仅是开始