有一个衡量人工智能“废话”的基准测试——大多数模型都失败了There's a Benchmark Test That Measures AI 'Bullshit'—Most Models Fail

Decrypt · 2026-03-10 19:26:45

BullshitBench 测试人工智能模型是否能够检测出无意义的问题，或者它们是否会自信地回答这些问题。结果是可怕的。

阅读原文 ← 返回