美国政府称中国最好的人工智能模型落后。专家不太确定

原文：US Government Says China's Best AI Models Lag Behind. Experts Aren't So Sure

将 Decrypt 添加为您的首选来源，以便在 Google 上查看我们的更多故事。

简而言之，CAISI 的评估结果显示 DeepSeek V4 Pro 比美国领先水平晚了 8 个月，该评估使用基于 IRT 的评分系统，涵盖九个基准（包括两个私人的、无法验证的数据集）。

成本比较排除了所有被认为太贵或太弱的美国型号，只留下 GPT-5.4 mini，而 DeepSeek 在七个基准测试中的五个中仍然更便宜。

斯坦福大学 2026 年人工智能指数发现，中美在公共排行榜上的表现差距已缩小至 2.7%。

美国一家政府机构公布了对中国最强大人工智能的结论：落后了八个月，而且时间越长，差距就越大。互联网阅读了该方法并开始提出问题。

NIST 旗下人工智能标准与创新中心 CAISI 于 5 月 1 日发布了对 DeepSeek V4 Pro 的评估。结论是：DeepSeek 的开放重量旗舰产品“落后前沿约 8 个月”。

蔡斯还称其为迄今为止评估过的最有能力的中国人工智能模型。

评分系统

CAISI 不像大多数评估者那样平均基准分数。相反，它应用项目反应理论（标准化测试的一种统计方法）来评估每个模型的潜在能力，通过跟踪它解决的问题和不解决的问题，跨越五个领域的九个基准：网络安全、软件工程、自然科学、抽象推理和数学。

IRT 估计的 Elo 分数：GPT-5.5 为 1,260 分，Anthropic 的 Claude Opus 4.6 为 999 分。DeepSeek V4 Pro 得分约为 800 (±28)，非常接近 GPT-5.4 mini 的 749 分。在 CAISI 的系统中，DeepSeek 更接近老一代的 GPT mini，而不是 Opus。

基准分数中的评分系统模拟了标准化考试对学生进行评分的方式——不是按原始正确百分比，而是按w

阅读原文 →