原文:China's Xiaomi MiMo Is Now 15X Faster Than ChatGPT and Claude

将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。

简而言之,小米和推理合作伙伴 TileRT 使用标准 8-GPU 商品节点(而非定制芯片),在 1 万亿参数模型上每秒突破 1,000 个令牌,这在该规模上尚属首次。

该速度来自于模型专家层上的 FP4 量化和 DFlash 推测解码,它建议一次传递完整的令牌块,而不是一次一个。

有限的 API 试用将于 6 月 9 日至 6 月 23 日开放,价格为标准 MiMo 费率的 3 倍,生成速度约为 10 倍。

动滑板车和空气净化器的公司。这家公司并不完全是你所期望的在周一早上打破主要人工智能推理速度记录的公司。

然而。小米刚刚发布了 MiMo-V2.5-Pro-UltraSpeed,这是其万亿参数旗舰产品的服务模式,每秒可处理超过 1,000 个令牌,在演示中峰值接近 1,200 个。

参数是定义模型如何思考的内部数字权重——参数越多,它可以识别的模式就越复杂。标记是模型读取和写入的文本块,平均每个文本块大约是一个单词的四分之三。

Xiaomi did it on a single 8-GPU commodity node. Standard hardware, no custom chips.这改变了谁可以在生产中实际部署这种速度的计算方式。

用人类的术语来说:根据人工分析,GPT-5.5(大多数 ChatGPT 用户实际上正在谈论的内容)为 68。Claude Opus 4.6 的低端模型 Haiku 的得分约为 71,达到每秒 98 个令牌。 Gemini Flash hits 192 tokens per second. MiMo-V2.5-Pro-UltraSpeed 在编码基准测试中与 Opus 相匹配的模型上执行了 1,000 次。

Cerebras 和 Groq 围绕这个问题建立了整个业务。 Cerebras 设计了一款餐盘大小的晶圆级芯片,配备 44GB 片上内存,以消除减慢 GPU 推理速度的带宽瓶颈。 It hit 969 tokens per second on

阅读原文 →