谷歌的 Gemma 4 AI 模型通过预测未来代币将速度提升 3 倍

原文：Google's Gemma 4 AI models get 3x speed boost by predicting future tokens

谷歌今年春天推出了 Gemma 4 开放模型，承诺将本地人工智能的功能和性能提升到新的水平。随着 Gemma 多令牌预测 (MTP) 起草者的发布，谷歌在边缘人工智能领域的发展可能会变得更快。谷歌表示，这些实验模型利用一种推测解码的形式来猜测未来的代币，与模型自行生成代币的方式相比，这可以加快生成速度。

最新的 Gemma 模型基于与 Google 前沿 Gemini AI 相同的底层技术构建，但它们经过调整可在本地运行。 Gemini 经过优化，可在 Google 的定制 TPU 芯片上运行，该芯片在具有超快互连和内存的巨大集群中运行。单个高功率 AI 加速器可以全精度运行最大的 Gemma 4 模型，并且量化将使其在消费级 GPU 上运行。

Gemma 允许用户在硬件上修改人工智能，而不是与谷歌或其他人的云人工智能系统共享所有数据。 Google 还将 Gemma 4 的许可证更改为 Apache 2.0，这比 Google 在之前版本中使用的自定义 Gemma 许可证宽松得多。然而，大多数人运行本地人工智能模型的硬件存在固有的限制。这就是 MTP 发挥作用的地方。

像 Gemma（或 Gemini）这样的法学硕士以自回归方式生成令牌，也就是说，它们根据前一个令牌一次生成一个令牌。无论令牌只是输出中的填充词还是复杂逻辑问题中的关键信息，每个令牌都需要与上一个令牌一样多的计算工作。

自行开发 AI 的问题在于，与企业硬件中使用的高带宽内存 (HBM) 相比，您的系统内存可能不是很快。因此，处理器花费大量时间将参数从 VRAM 移动到每个令牌的计算单元，并且在此过程中计算周期未被使用。

NVIDIA RTX PRO 6000 上的 Gemma 4 26B。标准推理（左）v

阅读原文 →