BullshitBench 测试人工智能模型是否能够检测出无意义的问题,或者它们是否会自信地回答这些问题。结果是可怕的。