原文:Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free
将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。
简而言之,Google 发布了 DiffusionGemma,这是一个免费的开放权重模型,可通过文本扩散同时生成整个 256 个令牌块,在 NVIDIA H100 上每秒命中超过 1,000 个令牌,比标准自回归模型快四倍。
DiffusionGemma 本地推理所需的自定义绘图器模块在任何公共运行时中尚不存在(mlx-lm 中不存在,LM Studio 中也不存在),这使得它在当今的大多数消费者设置中实际上无法运行。
在 NVIDIA NIM 上,该模型预配置了 8,192 个上下文令牌(低于 Hermes Agent 等代理框架所需的 64,000 个令牌下限),这意味着如果没有手动重新配置,自主工作流程将无法运行。
谷歌今天放弃了 DiffusionGemma,这是一种开放式人工智能模型,可以像图像生成器创建图片一样生成文本:从噪音开始,进行细化,直到有意义。在 NVIDIA H100 上每秒达到 1,000 个令牌。 (令牌是人工智能模型处理的信息的基本单位。)这意味着它比普通 Gemma 快四倍。它也是免费的,Apache 2.0,在 Hugging Face 上有权重。
与往常一样,问题在于细则。根据 Google 的公告,该模型“在 NVIDIA GeForce RTX 5090 上每秒达到 700+ 个令牌”。它的输出质量也落后于标准 Gemma 4。
谷歌自己也是这么说的。这是速度模型,而不是质量升级。
这实际上做了什么
你用过的每一个法学硕士都是一台打字机。一次一个标记,每个单词都依赖于最后一个单词。这就是自回归架构的工作原理。
DiffusionGemma 不这样做。它不是按顺序生成标记,而是从并行的细化乱码文本块开始。根据谷歌的开发者指南,它“从随机占位符令牌的画布开始”,并迭代锁定有信心的令牌,直到整个块成为焦点。每次前传需要两百五十六个令牌。 GPU 保持忙碌状态。
副作用是双向注意力——ev