“人类终极考试”基准测试AI表现数据公布

根据CAIS(人工智能安全中心)与Scale AI联合发布的测试数据,当前主流AI模型在“人类终极考试”中表现欠佳,准确率均低于10%。其中,DeepSeek-R1以9.4%的准确率和81.8%的校准误差位列第一。GPT-4o(准确率3.3%)、Grok-2(3.8%)、Claude 3.5 Sonnet(4.3%)和Gemini Thinking(6.2%)等多模态模型的综合能力均存在显著短板,校准误差普遍超过89%,表明模型常以高置信度输出错误答案

测试涵盖数学、人文和自然科学等跨学科复杂问题,需多模态信息处理能力。DeepSeek-R1因仅支持文本输入,其数据基于文本子集评估。开发者预测,随着技术迭代,2025年底模型的准确率或突破50%。

#人工智能 #AI测试 #科技
 
 
Back to Top