原文:Google's Gemma 4 AI models get 3x speed boost by predicting future tokens

谷歌今年春天推出了 Gemma 4 开放模型,承诺将本地人工智能的功能和性能提升到新的水平。随着 Gemma 多令牌预测 (MTP) 起草者的发布,谷歌在边缘人工智能领域的发展可能会变得更快。谷歌表示,这些实验模型利用一种推测解码的形式来猜测未来的代币,与模型自行生成代币的方式相比,这可以加快生成速度。

最新的 Gemma 模型基于与 Google 前沿 Gemini AI 相同的底层技术构建,但它们经过调整可在本地运行。 Gemini 经过优化,可在 Google 的定制 TPU 芯片上运行,该芯片在具有超快互连和内存的巨大集群中运行。单个高功率 AI 加速器可以全精度运行最大的 Gemma 4 模型,并且量化将使其在消费级 GPU 上运行。

Gemma 允许用户在硬件上修改人工智能,而不是与谷歌或其他人的云人工智能系统共享所有数据。 Google 还将 Gemma 4 的许可证更改为 Apache 2.0,这比 Google 在之前版本中使用的自定义 Gemma 许可证宽松得多。然而,大多数人运行本地人工智能模型的硬件存在固有的限制。这就是 MTP 发挥作用的地方。

像 Gemma(或 Gemini)这样的法学硕士以自回归方式生成令牌,也就是说,它们根据前一个令牌一次生成一个令牌。无论令牌只是输出中的填充词还是复杂逻辑问题中的关键信息,每个令牌都需要与上一个令牌一样多的计算工作。

自行开发 AI 的问题在于,与企业硬件中使用的高带宽内存 (HBM) 相比,您的系统内存可能不是很快。因此,处理器花费大量时间将参数从 VRAM 移动到每个令牌的计算单元,并且在此过程中计算周期未被使用。

NVIDIA RTX PRO 6000 上的 Gemma 4 26B。标准推理(左)v

阅读原文 →