Google 的 DiffusionGemma AI 达到每秒 1,000 个代币—

原文：Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free

将 Decrypt 添加为您的首选来源，以便在 Google 上查看我们的更多故事。

简而言之，Google 发布了 DiffusionGemma，这是一个免费的开放权重模型，可通过文本扩散同时生成整个 256 个令牌块，在 NVIDIA H100 上每秒命中超过 1,000 个令牌，比标准自回归模型快四倍。

DiffusionGemma 本地推理所需的自定义绘图器模块在任何公共运行时中尚不存在（mlx-lm 中不存在，LM Studio 中也不存在），这使得它在当今的大多数消费者设置中实际上无法运行。

在 NVIDIA NIM 上，该模型预配置了 8,192 个上下文令牌（低于 Hermes Agent 等代理框架所需的 64,000 个令牌下限），这意味着如果没有手动重新配置，自主工作流程将无法运行。

谷歌今天放弃了 DiffusionGemma，这是一种开放式人工智能模型，可以像图像生成器创建图片一样生成文本：从噪音开始，进行细化，直到有意义。在 NVIDIA H100 上每秒达到 1,000 个令牌。（令牌是人工智能模型处理的信息的基本单位。）这意味着它比普通 Gemma 快四倍。它也是免费的，Apache 2.0，在 Hugging Face 上有权重。

与往常一样，问题在于细则。根据 Google 的公告，该模型“在 NVIDIA GeForce RTX 5090 上每秒达到 700+ 个令牌”。它的输出质量也落后于标准 Gemma 4。

谷歌自己也是这么说的。这是速度模型，而不是质量升级。

这实际上做了什么

你用过的每一个法学硕士都是一台打字机。一次一个标记，每个单词都依赖于最后一个单词。这就是自回归架构的工作原理。

DiffusionGemma 不这样做。它不是按顺序生成标记，而是从并行的细化乱码文本块开始。根据谷歌的开发者指南，它“从随机占位符令牌的画布开始”，并迭代锁定有信心的令牌，直到整个块成为焦点。每次前传需要两百五十六个令牌。 GPU 保持忙碌状态。

副作用是双向注意力——ev

阅读原文 →

Google 的 DiffusionGemma AI 达到每秒 1,000 个代币——而且是免费的