随着上下文窗口的增长,该技术减少了运行大型语言模型所需的内存,这是人工智能部署的一个关键限制。