原文:US Government Says China's Best AI Models Lag Behind. Experts Aren't So Sure

将 Decrypt 添加为您的首选来源,以便在 Google 上查看我们的更多故事。

简而言之,CAISI 的评估结果显示 DeepSeek V4 Pro 比美国领先水平晚了 8 个月,该评估使用基于 IRT 的评分系统,涵盖九个基准(包括两个私人的、无法验证的数据集)。

成本比较排除了所有被认为太贵或太弱的美国型号,只留下 GPT-5.4 mini,而 DeepSeek 在七个基准测试中的五个中仍然更便宜。

斯坦福大学 2026 年人工智能指数发现,中美在公共排行榜上的表现差距已缩小至 2.7%。

美国一家政府机构公布了对中国最强大人工智能的结论:落后了八个月,而且时间越长,差距就越大。互联网阅读了该方法并开始提出问题。

NIST 旗下人工智能标准与创新中心 CAISI 于 5 月 1 日发布了对 DeepSeek V4 Pro 的评估。结论是:DeepSeek 的开放重量旗舰产品“落后前沿约 8 个月”。

蔡斯还称其为迄今为止评估过的最有能力的中国人工智能模型。

评分系统

<span style="display:inline-block;width:0px;overflow:hidden;line-height:0" data-mce-type="bookmark" class="mce_SELRES_start"></span>

CAISI 不像大多数评估者那样平均基准分数。相反,它应用项目反应理论(标准化测试的一种统计方法)来评估每个模型的潜在能力,通过跟踪它解决的问题和不解决的问题,跨越五个领域的九个基准:网络安全、软件工程、自然科学、抽象推理和数学。

IRT 估计的 Elo 分数:GPT-5.5 为 1,260 分,Anthropic 的 Claude Opus 4.6 为 999 分。DeepSeek V4 Pro 得分约为 800 (±28),非常接近 GPT-5.4 mini 的 749 分。在 CAISI 的系统中,DeepSeek 更接近老一代的 GPT mini,而不是 Opus。

基准分数中的评分系统模拟了标准化考试对学生进行评分的方式——不是按原始正确百分比,而是按w

阅读原文 →