<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI测试 | Memordust</title><description/><link>https://broadcastchannel-6wd.pages.dev</link><item><title>“人类终极考试”基准测试AI表现数据公布根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%</title><link>https://broadcastchannel-6wd.pages.dev/posts/269</link><guid isPermaLink="true">https://broadcastchannel-6wd.pages.dev/posts/269</guid><pubDate>Fri, 24 Jan 2025 20:02:39 GMT</pubDate><content:encoded>&lt;div&gt;
      
        &lt;img src=&quot;/static/https://cdn5.telesco.pe/file/ha7FynM5rCkPn2MLdm0yNaF7CK-PAsnyOyBMWT-PDZR1LChnCU4V5OBllvbpTXIx1RgAaKGYX8iTrep_4Ph6Fpf_fn2WowikWvt4iQ49y3kLT_mtkpIW1GmcmlN2PhGbDI_-tPL4mMrSPjSFlORDhakwarGBltWkWyislKKZoW_3g_bWZmMw69igtChXCcYnhb-PYo7VO-pZQO4yPfvY4MDdTxqzOZgNKhd2KkJcl2VoIqIf8cZyhXCjxiPU1_qK-7ba9SQJVGUQ2P6p7l-QlEmqB8jdOLjfHjPtdGGP6kD71p54EX3q9fpj1m8Kt4anzfPX8gu-zlSkFvO39XumQg.jpg&quot; alt=&quot;“人类终极考试”基准测试AI表现数据公布根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%&quot; loading=&quot;lazy&quot; /&gt;
      
      
        
      
    &lt;/div&gt;&lt;b&gt;“人类终极考试”基准测试AI表现数据公布&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;根据CAIS（人工智能安全中心）与Scale AI联合发布的测试数据，当前主流AI模型在“人类终极考试”中表现欠佳，准确率均低于10%。其中，&lt;b&gt;DeepSeek-R1以9.4%的准确率和81.8%的校准误差位列第一&lt;/b&gt;。GPT-4o（准确率3.3%）、Grok-2（3.8%）、Claude 3.5 Sonnet（4.3%）和Gemini Thinking（6.2%）等多模态模型的综合能力均存在显著短板，校准误差普遍超过89%，表明&lt;b&gt;模型常以高置信度输出错误答案&lt;/b&gt;。&lt;br /&gt;&lt;br /&gt;测试涵盖数学、人文和自然科学等跨学科复杂问题，需多模态信息处理能力。DeepSeek-R1因仅支持文本输入，其数据基于文本子集评估。开发者预测，随着技术迭代，2025年底模型的准确率或突破50%。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt; &lt;a href=&quot;/search/%23AI%E6%B5%8B%E8%AF%95&quot;&gt;#AI测试&lt;/a&gt; &lt;a href=&quot;/search/%23%E7%A7%91%E6%8A%80&quot;&gt;#科技&lt;/a&gt;</content:encoded></item></channel></rss>