原文:Google Found a Way to Make Local AI Up to 3x Faster—No New Hardware Required
将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。
简而言之,Google 发布了 Gemma 4 的多令牌预测 (MTP) 起草器,可将推理速度提高 3 倍,而不会降低输出质量。
该技术称为推测解码,使用轻量级“起草者”模型一次预测多个令牌,然后主模型并行验证这些令牌,从而绕过一次一个令牌的瓶颈。
MTP 绘图器可在 Hugging Face、Kaggle 和 Ollama 上使用,与 Gemma 4 具有相同的 Apache 2.0 许可证,并可使用 vLLM、MLX 和 SGLang 等工具。
在自己的计算机上运行人工智能模型固然很棒,但事实并非如此。
我们的承诺是隐私、无订阅费、并且数据不会离开您的机器。对于大多数人来说,现实是看着光标在句子之间闪烁五秒钟。
这个瓶颈有一个名字:推理速度。这与模型的智能程度无关。这是一个硬件问题。标准人工智能模型一次生成一个单词片段(称为令牌)的文本。硬件必须将数十亿个参数从内存传输到其计算单元才能生成每个令牌。它的设计速度很慢。在消费类硬件上,这是痛苦的。
大多数人寻求的解决方法是运行更小、更弱的模型,或者高度压缩的版本,称为量化模型,它们会牺牲一些质量来换取速度。这两种解决方案都不是很好。您得到了一些可以运行的模型,但这不是您真正想要的模型。
现在谷歌有了不同的想法。该公司刚刚为其 Gemma 4 系列开放模型发布了多令牌预测 (MTP) 绘图器,该技术可以在不影响模型质量或推理能力的情况下实现高达 3 倍的加速。
这种方法称为推测解码,它作为一个概念已经存在多年了。谷歌研究人员早在 2022 年就发表了这篇基础论文。这个想法直到现在才成为主流,因为它需要正确的架构才能使其在 s
