原文:AI models are choking on junk data
我们如何从 ChatGPT 过渡到人形机器人取决于人工智能中最重要但讨论最少的瓶颈之一——我们向这些系统提供学习数据的质量。
到目前为止,人工智能产业综合体的运作理念是,为模型提供更多数据意味着模型更智能。当研究人员可以简单地利用互联网来训练大型语言模型时,这种方法非常有效。但我们正处于人工智能的下一个前沿——物理人工智能和世界模型——将在物理世界中学习并最终运行的系统。想想在道路和交通中导航、折叠衣物或协助复杂的医疗手术所需的认知能力。这些都需要一些无法简单下载的东西。它需要丰富且多方面的数据来供这些世界模型学习。
现在存在着一场潜在的危机,可能会对人工智能运动产生重大影响。如果我们无法阻止过多的垃圾数据(无法推动模型发展的数据),物理人工智能和世界模型的全部前景可能永远无法实现其全部潜力。
问题的一个重要部分是渴望数据来提供新的、更好的模型。人工智能公司对这些数据非常渴求,这催生了一波价值数十亿美元的人工智能数据初创公司,它们提供这些服务,例如 Scale AI、Surge AI 和 Mercor。但为了满足这些贪得无厌的胃口,产生了大量的垃圾数据,而这些数据实际上根本无法推动人工智能模型的发展。
垃圾数据更容易产生,但物理人工智能和世界模型所需的数据需要更多的时间和精力。由于物理世界非常复杂,训练这些模型来理解多维世界需要更多的数据,而这些数据也很难获得。机器学习工程师诉诸于模拟这些数据,这需要花费数小时对现实世界场景进行虚拟重演来创建数据
