原文:Inception Labs' Mercury 2 AI Beats Google's DiffusionGemma at Its Own Game

将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。

简而言之,Inception Labs 的 Mercury 2 每秒生成大约 1,000 个代币,在 AIME 2026 上得分为 90

谷歌最近的 DiffusionGemma 达到了相似的速度,但在基准测试中表现较差。

DiffusionGemma 在 Hugging Face 上是免费且开放重量的。 Mercury 2 是一个付费、封闭权重的 API 模型。

Inception Labs 于周四推出了 Mercury 2,称其为世界上最快的推理语言模型。根据该公司的公告,它每秒生成约 1,000 个令牌(AI 模型读取和写入的文本块),而 Anthropic 的 Claude Haiku 4.5 Reasoning 每秒生成约 89 个令牌,OpenAI 的 GPT-5 Mini 每秒生成约 71 个令牌。

这使它处于与谷歌后来声称的 DiffusionGemma 相同的速度等级。

欢迎来到扩散时代。多年前,我们就押注于平行世代,当时这是一个逆向的想法。很高兴看到这个行业的到来。在公开的扩散法学硕士中,Mercury 2 在质量、速度和成本方面继续领先帕累托前沿。 pic.twitter.com/qSHuiR7vmH — 起始 (@_inception_ai) 2026 年 6 月 18 日

这两种模型都是通过放弃打字机的写作方式来实现这一目标的。标准的聊天机器人会写一个单词,检查刚刚写的内容,然后写下一个单词,循环直到答案完成。相反,扩散模型会用随机占位符标记填充文本块,并在几次并行传递中消除噪声——这与在稳定扩散等图像生成器中将静态转化为照片的技巧相同——直到整个块立即锁定为完成的响应。

两者的分歧之处在于这个过程中幸存下来的东西。在 AIME 2026 上(根据真实的美国数学邀请赛考试题构建,并根据正确解决的百分比进行评分),Mercury 2 达到了 90%。 Google 在同一组上测试了 DiffusionGemma,得分为 69.1%,而标准的非 Diffusion Gemma 4 在同一测试中得分为 88.3%。

在 GPQA 上,博士级科学基准得分为 s

阅读原文 →