Inception Labs 的 Mercury 2 AI 在自己的游戏中击败了 Google 的 DiffusionGemma

原文：Inception Labs' Mercury 2 AI Beats Google's DiffusionGemma at Its Own Game

将 Decrypt 添加为您的首选来源，以便在 Google 上查看我们的更多故事。

简而言之，Inception Labs 的 Mercury 2 每秒生成大约 1,000 个代币，在 AIME 2026 上得分为 90

谷歌最近的 DiffusionGemma 达到了相似的速度，但在基准测试中表现较差。

DiffusionGemma 在 Hugging Face 上是免费且开放重量的。 Mercury 2 是一个付费、封闭权重的 API 模型。

Inception Labs 于周四推出了 Mercury 2，称其为世界上最快的推理语言模型。根据该公司的公告，它每秒生成约 1,000 个令牌（AI 模型读取和写入的文本块），而 Anthropic 的 Claude Haiku 4.5 Reasoning 每秒生成约 89 个令牌，OpenAI 的 GPT-5 Mini 每秒生成约 71 个令牌。

这使它处于与谷歌后来声称的 DiffusionGemma 相同的速度等级。

欢迎来到扩散时代。多年前，我们就押注于平行世代，当时这是一个逆向的想法。很高兴看到这个行业的到来。在公开的扩散法学硕士中，Mercury 2 在质量、速度和成本方面继续领先帕累托前沿。 pic.twitter.com/qSHuiR7vmH — 起始 (@_inception_ai) 2026 年 6 月 18 日

这两种模型都是通过放弃打字机的写作方式来实现这一目标的。标准的聊天机器人会写一个单词，检查刚刚写的内容，然后写下一个单词，循环直到答案完成。相反，扩散模型会用随机占位符标记填充文本块，并在几次并行传递中消除噪声——这与在稳定扩散等图像生成器中将静态转化为照片的技巧相同——直到整个块立即锁定为完成的响应。

两者的分歧之处在于这个过程中幸存下来的东西。在 AIME 2026 上（根据真实的美国数学邀请赛考试题构建，并根据正确解决的百分比进行评分），Mercury 2 达到了 90%。 Google 在同一组上测试了 DiffusionGemma，得分为 69.1%，而标准的非 Diffusion Gemma 4 在同一测试中得分为 88.3%。

在 GPQA 上，博士级科学基准得分为 s

阅读原文 →