“人类终极考试”基准测试AI表现数据公布根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%

Fri, 24 Jan 2025 20:02:39 GMT

“人类终极考试”基准测试AI表现数据公布

根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%。其中，DeepSeek-R1以9.4%的准确率和81.8%的校准误差位列第一。GPT-4o（准确率3.3%）、Grok-2（3.8%）、Claude 3.5 Sonnet（4.3%）和Gemini Thinking（6.2%）等多模态模型的综合能力均存在显著短板，校准误差普遍超过89%，表明模型常以高置信度输出错误答案。

测试涵盖数学、人文和自然科学等跨学科复杂问题，需多模态信息处理能力。DeepSeek-R1因仅支持文本输入，其数据基于文本子集评估。开发者预测，随着技术迭代，2025年底模型的准确率或突破50%。

#人工智能 #AI测试 #科技

AI测试 | Memordust

“人类终极考试”基准测试AI表现数据公布根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%