人工智能模型因垃圾数据而窒息

原文：AI models are choking on junk data

我们如何从 ChatGPT 过渡到人形机器人取决于人工智能中最重要但讨论最少的瓶颈之一——我们向这些系统提供学习数据的质量。

到目前为止，人工智能产业综合体的运作理念是，为模型提供更多数据意味着模型更智能。当研究人员可以简单地利用互联网来训练大型语言模型时，这种方法非常有效。但我们正处于人工智能的下一个前沿——物理人工智能和世界模型——将在物理世界中学习并最终运行的系统。想想在道路和交通中导航、折叠衣物或协助复杂的医疗手术所需的认知能力。这些都需要一些无法简单下载的东西。它需要丰富且多方面的数据来供这些世界模型学习。

现在存在着一场潜在的危机，可能会对人工智能运动产生重大影响。如果我们无法阻止过多的垃圾数据（无法推动模型发展的数据），物理人工智能和世界模型的全部前景可能永远无法实现其全部潜力。

问题的一个重要部分是渴望数据来提供新的、更好的模型。人工智能公司对这些数据非常渴求，这催生了一波价值数十亿美元的人工智能数据初创公司，它们提供这些服务，例如 Scale AI、Surge AI 和 Mercor。但为了满足这些贪得无厌的胃口，产生了大量的垃圾数据，而这些数据实际上根本无法推动人工智能模型的发展。

垃圾数据更容易产生，但物理人工智能和世界模型所需的数据需要更多的时间和精力。由于物理世界非常复杂，训练这些模型来理解多维世界需要更多的数据，而这些数据也很难获得。机器学习工程师诉诸于模拟这些数据，这需要花费数小时对现实世界场景进行虚拟重演来创建数据

阅读原文 →