目前,华为、小米、荣耀、OPPO、vivo、魅族等多家手机厂商均已接入DeepSeek-R1,以提升AI助手的智能体验。随着DeepSeek-R1的影响力持续扩大,更多厂商或将在未来加入该生态。
·华为小艺助手上线DeepSeek-R1 Beta版,用户需升级至HarmonyOS NEXT方可使用。
·荣耀YOYO智能体商店上线DeepSeek-R1尝鲜版,适用于MagicOS 8.0及以上机型。
·OPPO方面,即将发布的OPPO Find N5将正式接入DeepSeek-R1,其他机型需等待后续公告。
·vivo宣布将与DeepSeek深度融合,蓝心小V未来将支持图片生成、AI文本创作等功能。
·魅族Flyme AIOS完成适配,首批将支持魅族21系列和Lucky 08,并计划推广至更多设备。
·小米方面,尽管“超级小爱”未正式官宣,但已完成DeepSeek-R1的整合,目前版本暂不支持联网和文件上传。
#DeepSeek #人工智能 #手机 #华为 #小米 #荣耀 #OPPO #魅族
OpenAI 执行长表示:愿与中国合作,拒绝出售公司
在巴黎的AI行动峰会上,OpenAI的执行长萨姆·奥特曼(Samuel Harris Altman)表示愿意在AI领域与中国展开合作,并承诺将为此付出最大努力。他指出,即使面临美国政府的初步反对,他依然希望推动这项合作实现。奥尔特曼强调,“我认为这是非常重要的,并且我相信我们能够做到”“即使美国政府不同意也会全力以赴”。
此外,奥特曼再次重申,OpenAI不会出售。他回应了关于马斯克和其他投资者提出的974亿美元收购提案,明确表示拒绝此提案,并幽默地表示,如果马斯克愿意,他愿意以97.4亿美元收购推特。
奥特曼的回应是在此前《华尔街日报》报道后,马斯克等投资人曾提出收购OpenAI的计划,涉及可能与AI新创公司xAI合并。奥特曼坚决否认了这一计划,表示OpenAI将继续独立发展。
#人工智能 #OpenAI #DeepSeek #马斯克
在巴黎的AI行动峰会上,OpenAI的执行长萨姆·奥特曼(Samuel Harris Altman)表示愿意在AI领域与中国展开合作,并承诺将为此付出最大努力。他指出,即使面临美国政府的初步反对,他依然希望推动这项合作实现。奥尔特曼强调,“我认为这是非常重要的,并且我相信我们能够做到”“即使美国政府不同意也会全力以赴”。
此外,奥特曼再次重申,OpenAI不会出售。他回应了关于马斯克和其他投资者提出的974亿美元收购提案,明确表示拒绝此提案,并幽默地表示,如果马斯克愿意,他愿意以97.4亿美元收购推特。
奥特曼的回应是在此前《华尔街日报》报道后,马斯克等投资人曾提出收购OpenAI的计划,涉及可能与AI新创公司xAI合并。奥特曼坚决否认了这一计划,表示OpenAI将继续独立发展。
#人工智能 #OpenAI #DeepSeek #马斯克
OpenAI称无计划起诉DeepSeek
OpenAI首席执行官Sam Altman星期一(2月3日)说,没有计划起诉DeepSeek。他表明,DeepSeek-R1的确令人震撼,但他相信OpenAI会继续开拓前沿领域,提供优秀的产品,“我们很高兴又迎来一位竞争对手”。
OpenAI曾表示掌握证据显示DeepSeek在训练过程中涉嫌通过“蒸馏”技术使用其数据,违反了相关条款。然而值得注意的是,所谓的“蒸馏”实际上包括了广义和狭义两种形式。在AI领域,广义蒸馏指的是利用已有模型生成的语料进行进一步的训练优化,而狭义蒸馏则是特指通过去噪和精炼数据来提升模型效果。OpenAI所提到的“蒸馏”概念并未明确区分这两者,造成了混淆。与此同时,DeepSeek模型本身使用了自主架构并同时发布了基于开源模型精简的版本,而非直接蒸馏OpenAI的模型。
这一系列的概念模糊和数据来源问题,也暴露了OpenAI在业内的争议,尤其是它自诩为数据使用规范的领头羊,却也未能避免版权问题的困扰。OpenAI曾多次因使用版权受保护的数据而面临知识产权指控。外界质疑,OpenAI的语料来源一直不清晰,且随着其模型广泛渗透互联网,数据污染问题变得更加严重,给AI生成内容带来了潜在的误导性。因此,OpenAI所言的“竞争”可能掩盖了其自身的争议与错误。
#OpenAI #DeepSeek #人工智能 #争议
OpenAI首席执行官Sam Altman星期一(2月3日)说,没有计划起诉DeepSeek。他表明,DeepSeek-R1的确令人震撼,但他相信OpenAI会继续开拓前沿领域,提供优秀的产品,“我们很高兴又迎来一位竞争对手”。
OpenAI曾表示掌握证据显示DeepSeek在训练过程中涉嫌通过“蒸馏”技术使用其数据,违反了相关条款。然而值得注意的是,所谓的“蒸馏”实际上包括了广义和狭义两种形式。在AI领域,广义蒸馏指的是利用已有模型生成的语料进行进一步的训练优化,而狭义蒸馏则是特指通过去噪和精炼数据来提升模型效果。OpenAI所提到的“蒸馏”概念并未明确区分这两者,造成了混淆。与此同时,DeepSeek模型本身使用了自主架构并同时发布了基于开源模型精简的版本,而非直接蒸馏OpenAI的模型。
这一系列的概念模糊和数据来源问题,也暴露了OpenAI在业内的争议,尤其是它自诩为数据使用规范的领头羊,却也未能避免版权问题的困扰。OpenAI曾多次因使用版权受保护的数据而面临知识产权指控。外界质疑,OpenAI的语料来源一直不清晰,且随着其模型广泛渗透互联网,数据污染问题变得更加严重,给AI生成内容带来了潜在的误导性。因此,OpenAI所言的“竞争”可能掩盖了其自身的争议与错误。
#OpenAI #DeepSeek #人工智能 #争议
多个科技巨头宣布推出DeepSeek模型服务
当地时间1月31日,微软在其Azure AI Foundry和GitHub上提供了DeepSeek R1模型,开发者可以利用这些平台进行实验、迭代,并将DeepSeek模型集成到他们的工作流程中。微软CEO纳德拉表示,DeepSeek-R1模型还将在微软AI电脑Copilot+ PC上运行。同日,亚马逊云科技宣布,用户可以通过Amazon Bedrock的自定义模型导入功能试用DeepSeek的R1模型。亚马逊表示,DeepSeek是一家中国人工智能初创公司,其发展势头强劲,并发布了能够以极低的成本达到与基础模型相同性能水平的模型。英伟达宣布,DeepSeek-R1模型已在英伟达官网上作为NVIDIA NIM微服务预览版提供。DeepSeek-R1 NIM微服务可以在单个NVIDIA HGX H200系统上每秒提供多达3872 tokens。
2025年2月1日,硅基流动与华为云宣布合作,推出基于昇腾云服务的DeepSeek R1/V3推理服务。该服务结合自研推理加速引擎,优化模型在昇腾云上的部署,提供与高端GPU媲美的性能,满足大规模商用需求,为稳定、生产级的服务能力提供保障。
#DeepSeek #人工智能 #微软 #亚马逊 #英伟达 #华为 #推理服务 #商业
当地时间1月31日,微软在其Azure AI Foundry和GitHub上提供了DeepSeek R1模型,开发者可以利用这些平台进行实验、迭代,并将DeepSeek模型集成到他们的工作流程中。微软CEO纳德拉表示,DeepSeek-R1模型还将在微软AI电脑Copilot+ PC上运行。同日,亚马逊云科技宣布,用户可以通过Amazon Bedrock的自定义模型导入功能试用DeepSeek的R1模型。亚马逊表示,DeepSeek是一家中国人工智能初创公司,其发展势头强劲,并发布了能够以极低的成本达到与基础模型相同性能水平的模型。英伟达宣布,DeepSeek-R1模型已在英伟达官网上作为NVIDIA NIM微服务预览版提供。DeepSeek-R1 NIM微服务可以在单个NVIDIA HGX H200系统上每秒提供多达3872 tokens。
2025年2月1日,硅基流动与华为云宣布合作,推出基于昇腾云服务的DeepSeek R1/V3推理服务。该服务结合自研推理加速引擎,优化模型在昇腾云上的部署,提供与高端GPU媲美的性能,满足大规模商用需求,为稳定、生产级的服务能力提供保障。
#DeepSeek #人工智能 #微软 #亚马逊 #英伟达 #华为 #推理服务 #商业
1月30日,AMD全球副总裁David McAfee在X平台分享了一张对比图,展示了AMD Radeon RX 7900 XTX显卡在运行DeepSeek-R1 AI模型时,与英伟达RTX 4090和RTX 4080 SUPER的性能差异。测试结果显示,RX 7900 XTX在运行较小体量的模型时,性能超过RTX 4090,最高领先幅度达13%,且全面领先RTX 4080 SUPER。
AMD官方还提供了关于如何在AMD硬件上使用DeepSeek R1模型的说明,并列出了不同型号显卡支持的DeepSeek R1模型参数体量。用户需确保显卡驱动版本为Adrenalin Edition 25.1.1或更高版本,并安装LM Studio 0.3.8或更高版本。
#AMD #显卡 #DeepSeek #人工智能 #英伟达
英伟达宣布 DeepSeek-R1 可在 NVIDIA NIM 上使用
英伟达在其官网上发布文章表示,DeepSeek-R1 是一款具备最先进推理能力的开放模型,现已可在 NVIDIA NIM 上使用。与直接提供回应不同,DeepSeek-R1 等推理模型会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。
为了帮助开发者安全地试验这些功能并构建他们自己的专用代理,DeepSeek-R1 模型现在可作为 NVIDIA NIM 微服务预览版使用。开发者可以测试和使用应用程序界面 (API),该界面预计将很快作为可下载的 NIM 微服务提供,这是 NVIDIA AI Enterprise 软件平台的一部分。
#DeepSeek #英伟达 人工智能 #商业
英伟达在其官网上发布文章表示,DeepSeek-R1 是一款具备最先进推理能力的开放模型,现已可在 NVIDIA NIM 上使用。与直接提供回应不同,DeepSeek-R1 等推理模型会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。
为了帮助开发者安全地试验这些功能并构建他们自己的专用代理,DeepSeek-R1 模型现在可作为 NVIDIA NIM 微服务预览版使用。开发者可以测试和使用应用程序界面 (API),该界面预计将很快作为可下载的 NIM 微服务提供,这是 NVIDIA AI Enterprise 软件平台的一部分。
#DeepSeek #英伟达 人工智能 #商业
美国商务部长提名人卢特尼克(Howard Lutnick)在参议院听证会上指责中国人工智能公司深度求索(DeepSeek)“盗取”美国技术,制造“超廉价”AI模型,誓言对中国征收最高关税,并加强技术出口管制,以维持美国的领导地位。他表示,“不能再让中国用我们的工具与我们竞争”,强调将采取更强硬措施限制芯片出口,防止AI技术流向中国。
然而,业内人士指出,深度求索的技术开源自研,并已开源自身产品,与所谓的“盗窃”指控相去甚远。荷兰光刻机巨头阿斯麦(ASML)亦对深度求索的低成本、高效率 AI 模型表示欢迎,认为其解决了行业高成本和能耗问题。谷歌、微软、亚马逊、高通、英伟达等多个企业也曾表示对深度求索创新和研发能力的认可。
与此同时,DeepSeek 遭受大规模 DDoS 攻击,其 AI 服务受到影响。美国 AI 平台也采取封锁措施,Gemini 1206 禁止中文输出,Poe 限制 DeepSeek R1 访问,并以高价提供替代服务。微软 Azure 云平台则上线了 DeepSeek R1 供开发者使用,显示出美企对中国 AI 技术的“复杂”态度。此外,意大利苹果和谷歌商店已禁止下载 DeepSeek 应用,澳大利亚也表示 DeepSeek 并不“安全”。
#DeepSeek #人工智能 #美国 #技术封锁 #贸易战 #不正当竞争
DeepSeek 崛起引发美国巨头恐慌
DeepSeek 近期受到来自美国 IP 地址的大规模 DDoS 攻击,导致其线上服务受到影响。奇安信、360 等网络安全公司表示,监测发现 DeepSeek 近期一直遭受大量海外攻击,1月27日起手段升级,除了 DDoS 攻击,还包括大量的密码爆破攻击。DeepSeek 的 AI 服务和数据正面临前所未有的安全考验。DeepSeek 第一时间进行了响应和处理,并暂时限制了+86手机号以外的注册方式。
另有消息显示,Gemini 1206 已封禁中文输出,对中文提问和回答全面拒绝。Poe 平台也限制了 DeepSeek R1 模型的访问,并以更高价格提供服务,宣称与 Fireworks 和 Togethers(美国 AI 公司)合作,确保数据存储在美国。这两家服务商的 API 价格分别为 7 美元和 8 美元,是 DeepSeek 官方 API 价格的数十倍。这些举动被广泛解读为美国企业试图通过技术封锁和商业限制等不正当手段削弱 DeepSeek 在全球市场的竞争力。
#DeepSeek #Gemini #美国 #人工智能 #不正当竞争 #DDoS
DeepSeek 近期受到来自美国 IP 地址的大规模 DDoS 攻击,导致其线上服务受到影响。奇安信、360 等网络安全公司表示,监测发现 DeepSeek 近期一直遭受大量海外攻击,1月27日起手段升级,除了 DDoS 攻击,还包括大量的密码爆破攻击。DeepSeek 的 AI 服务和数据正面临前所未有的安全考验。DeepSeek 第一时间进行了响应和处理,并暂时限制了+86手机号以外的注册方式。
另有消息显示,Gemini 1206 已封禁中文输出,对中文提问和回答全面拒绝。Poe 平台也限制了 DeepSeek R1 模型的访问,并以更高价格提供服务,宣称与 Fireworks 和 Togethers(美国 AI 公司)合作,确保数据存储在美国。这两家服务商的 API 价格分别为 7 美元和 8 美元,是 DeepSeek 官方 API 价格的数十倍。这些举动被广泛解读为美国企业试图通过技术封锁和商业限制等不正当手段削弱 DeepSeek 在全球市场的竞争力。
#DeepSeek #Gemini #美国 #人工智能 #不正当竞争 #DDoS
白宫评估DeepSeek对国家安全影响
当地时间1月28日,白宫新闻秘书卡罗琳·莱维特表示,美国正在评估中国人工智能应用DeepSeek对国家安全的潜在风险,特别是涉及知识产权盗窃的可能性。白宫人工智能事务负责人大卫·萨克斯提到,DeepSeek可能通过“蒸馏”技术进行数据窃取。美国国家安全委员会目前正在进行审查,关注该技术可能对美国人工智能产业的影响。
然而,“蒸馏”是AI领域合法且广泛应用的优化技术,旨在缩小模型规模并提升效率。技术论文显示,DeepSeek蒸馏小模型主要基于开源模型(如Qwen、Llama系列)优化,而非直接使用OpenAI的专有数据。DeepSeek发布同时就开源了自身模型及并为公众蒸馏了六个小模型,技术透明,回馈社区,与“窃取”指控形成鲜明对比。
美国政界过去曾多次将中国商品、文化产品甚至日常用品与国家安全挂钩,如大蒜、龙虾、筷子、方便面、豆浆、泡菜、辣条、红枣、奶茶、火锅、煎饼果子、智能冰箱、电热水壶、电风扇、吸尘器、电蚊拍、电饭煲、彩色打印机、激光扫描仪、电动滑板车、电动自行车、电动公交车、太阳能电池板、路由器、平板电视、无人机、起重机、熊猫、熊猫玩偶、围棋、魔方、积木、拼图、陀螺、风筝、太极拳、功夫电影、皮影戏、汉字、剪纸、对联、广场舞、电影、瓷器、草帽、水稻种子、雨伞、快递箱、钢琴、灯泡、玻璃杯、口罩、丝袜、各种情趣玩具等。此次对DeepSeek的质疑延续了这一争议性趋势。
#美国 #人工智能 #安全 #DeepSeek
当地时间1月28日,白宫新闻秘书卡罗琳·莱维特表示,美国正在评估中国人工智能应用DeepSeek对国家安全的潜在风险,特别是涉及知识产权盗窃的可能性。白宫人工智能事务负责人大卫·萨克斯提到,DeepSeek可能通过“蒸馏”技术进行数据窃取。美国国家安全委员会目前正在进行审查,关注该技术可能对美国人工智能产业的影响。
然而,“蒸馏”是AI领域合法且广泛应用的优化技术,旨在缩小模型规模并提升效率。技术论文显示,DeepSeek蒸馏小模型主要基于开源模型(如Qwen、Llama系列)优化,而非直接使用OpenAI的专有数据。DeepSeek发布同时就开源了自身模型及并为公众蒸馏了六个小模型,技术透明,回馈社区,与“窃取”指控形成鲜明对比。
美国政界过去曾多次将中国商品、文化产品甚至日常用品与国家安全挂钩,如大蒜、龙虾、筷子、方便面、豆浆、泡菜、辣条、红枣、奶茶、火锅、煎饼果子、智能冰箱、电热水壶、电风扇、吸尘器、电蚊拍、电饭煲、彩色打印机、激光扫描仪、电动滑板车、电动自行车、电动公交车、太阳能电池板、路由器、平板电视、无人机、起重机、熊猫、熊猫玩偶、围棋、魔方、积木、拼图、陀螺、风筝、太极拳、功夫电影、皮影戏、汉字、剪纸、对联、广场舞、电影、瓷器、草帽、水稻种子、雨伞、快递箱、钢琴、灯泡、玻璃杯、口罩、丝袜、各种情趣玩具等。此次对DeepSeek的质疑延续了这一争议性趋势。
#美国 #人工智能 #安全 #DeepSeek
DeepSeek 使用 Nvidia PTX 实现高效计算优化
DeepSeek 在训练其 V3 模型时,通过使用 Nvidia 的 PTX(并行线程执行)语言进行编程,实现了比标准 CUDA 更高效的性能优化。PTX 是一种中间指令集架构,位于高级 GPU 编程语言和低级机器代码之间,允许进行细粒度的寄存器分配和线程/warp 级别调整,这是传统 CUDA 无法实现的。
为了进一步提升性能,DeepSeek 对 H800 GPU 进行了重新配置,将 132 个流式多处理器中的 20 个专门用于服务器间通信,可能用于数据压缩和解压,以克服处理器连接限制并加速计算。此外,DeepSeek 还实现了高级管道算法,通过超精细的线程/warp 级别调整,最大限度地提高了计算效率。这种深层次的优化展示了 DeepSeek 工程师的技术实力,尽管维护难度较高,但为模型训练提供了显著的性能提升。
#DeepSeek #英伟达 #GPU #人工智能
DeepSeek 在训练其 V3 模型时,通过使用 Nvidia 的 PTX(并行线程执行)语言进行编程,实现了比标准 CUDA 更高效的性能优化。PTX 是一种中间指令集架构,位于高级 GPU 编程语言和低级机器代码之间,允许进行细粒度的寄存器分配和线程/warp 级别调整,这是传统 CUDA 无法实现的。
为了进一步提升性能,DeepSeek 对 H800 GPU 进行了重新配置,将 132 个流式多处理器中的 20 个专门用于服务器间通信,可能用于数据压缩和解压,以克服处理器连接限制并加速计算。此外,DeepSeek 还实现了高级管道算法,通过超精细的线程/warp 级别调整,最大限度地提高了计算效率。这种深层次的优化展示了 DeepSeek 工程师的技术实力,尽管维护难度较高,但为模型训练提供了显著的性能提升。
#DeepSeek #英伟达 #GPU #人工智能
著名人工智能社区 Hugging Face 的工程师马修·卡里根展示了在本地运行 Deepseek-R1 的完整硬件和软件设置。他使用的是 670B 参数的模型,无蒸馏处理,采用 Q8 量化技术,能够实现全质量推理。整个系统的总成本约为 6000 美元,性价比极高。
硬件方面,主板使用技嘉 MZ73-LM0 或 MZ73-LM1,它们具有 2 个 EPYC 插槽,提供 24 个 DDR5 RAM 通道。CPU 方面,可以使用 2 个 AMD EPYC 9004 或 9005 CPU(任何的)。他强调,LLM 的瓶颈在于内存带宽,因此不需要高端 CPU,如果想降低成本,可以购买 9115 甚至 9015。内存是这套系统的关键部分,为了适应 670B 模型的需求,马修配置了 768GB 的内存,具体是 24 个 32GB 的 DDR5-RDIMM 模块,这样做的目的是充分利用 24 个内存通道,确保内存带宽足够快,从而提升模型的推理速度。尽管这套系统的功耗并不高(低于 400W),但由于需要为两个 EPYC CPU 供电,马修选择了 Corsair HX1000i 电源,这款电源不仅功率足够,还提供了大量的 CPU 电源接口,能够满足系统的供电需求。机箱需要支持完整尺寸的服务器主板,并且要有足够的螺丝安装座,散热器方面,马修选择了兼容 AMD EPYC SP5 插槽
的型号,确保 CPU 在高负载下也能保持稳定运行。为了加速模型的加载过程,马修推荐使用 1TB 或更大容量的 NVMe SSD,在启动模型时,需要将 700GB 的模型数据从 SSD 复制到内存中,NVMe 的高速度可以显著减少加载时间。
软件部分,首先需要安装 Linux 操作系统,然后进入 BIOS 设置,将 NUMA 组数设置为 0,确保模型的每一层数据都交错分布在所有的 RAM 芯片上,从而提升内存吞吐量。接下来,安装 Llama 框架,并下载 700GB 的 DeepSeek-R1-Q8_0 版本。一切就绪后,就可以使用以下代码运行 Deepseek-R1: llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry? <|Assistant|>" 。运行后,系统会经历一个短暂的加载过程,随后模型开始在本地思考问题并生成结果。
马修指出,系统生成速度约为 6~8 tokens/s,虽不及 GPU 方案快,但考虑到成本,这完全是一个可接受的折中方案。该方案完全基于 CPU,未使用 GPU,因此成本较低。他特别强调,Q8 量化的 670B 模型在质量上与 Deepseek API 提供的服务几乎没有区别。若想进一步提升速度,可考虑使用 GPU,但成本会大幅增加,例如使用 2 块 H100 GPU 的方案可能需要 10 万美元左右。此外,马修方案还未与 Mac mini 统一内存架构方案进行对比,Mac mini 方案可能在部署上更简单,但扩展性和性价比可能不如这套 EPYC 系统。
社区用户 yhfgyyf 对类似配置进行了测试,使用双路 EPYC 9755 处理器,单 CPU 支持 12 通道 DDR5-4800 内存。测试结果显示,最有效的配置是单 CPU 64-96 核,内存频率越高越好,且无需开启超线程功能。他还提到,实际运行中,512 线程的性能反而不如 128 线程,建议根据需求调整线程数。另一位用户 KPX 提到,Unsloth 的动态量化技术可将 Deepseek 模型压缩到 131GB,最低运行内存需求降至 80GB,为资源有限的用户提供了更多选择。关于性能,token/s 主要取决于等效总带宽,因为 LLM 推理是存储密集型任务,4090 显卡的显存带宽约为 1TB/s,而 CPU 方案通过高频 DDR5 和多通道优化也能达到不错的性能。最重要的是确保 NUMA 节点的负载均衡,否则 token/s 可能会大幅下降。
#非新闻信息 #DeepSeek #本地部署 #教程
硬件方面,主板使用技嘉 MZ73-LM0 或 MZ73-LM1,它们具有 2 个 EPYC 插槽,提供 24 个 DDR5 RAM 通道。CPU 方面,可以使用 2 个 AMD EPYC 9004 或 9005 CPU(任何的)。他强调,LLM 的瓶颈在于内存带宽,因此不需要高端 CPU,如果想降低成本,可以购买 9115 甚至 9015。内存是这套系统的关键部分,为了适应 670B 模型的需求,马修配置了 768GB 的内存,具体是 24 个 32GB 的 DDR5-RDIMM 模块,这样做的目的是充分利用 24 个内存通道,确保内存带宽足够快,从而提升模型的推理速度。尽管这套系统的功耗并不高(低于 400W),但由于需要为两个 EPYC CPU 供电,马修选择了 Corsair HX1000i 电源,这款电源不仅功率足够,还提供了大量的 CPU 电源接口,能够满足系统的供电需求。机箱需要支持完整尺寸的服务器主板,并且要有足够的螺丝安装座,散热器方面,马修选择了兼容 AMD EPYC SP5 插槽
的型号,确保 CPU 在高负载下也能保持稳定运行。为了加速模型的加载过程,马修推荐使用 1TB 或更大容量的 NVMe SSD,在启动模型时,需要将 700GB 的模型数据从 SSD 复制到内存中,NVMe 的高速度可以显著减少加载时间。
软件部分,首先需要安装 Linux 操作系统,然后进入 BIOS 设置,将 NUMA 组数设置为 0,确保模型的每一层数据都交错分布在所有的 RAM 芯片上,从而提升内存吞吐量。接下来,安装 Llama 框架,并下载 700GB 的 DeepSeek-R1-Q8_0 版本。一切就绪后,就可以使用以下代码运行 Deepseek-R1: llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p "<|User|>How many Rs are there in strawberry? <|Assistant|>" 。运行后,系统会经历一个短暂的加载过程,随后模型开始在本地思考问题并生成结果。
马修指出,系统生成速度约为 6~8 tokens/s,虽不及 GPU 方案快,但考虑到成本,这完全是一个可接受的折中方案。该方案完全基于 CPU,未使用 GPU,因此成本较低。他特别强调,Q8 量化的 670B 模型在质量上与 Deepseek API 提供的服务几乎没有区别。若想进一步提升速度,可考虑使用 GPU,但成本会大幅增加,例如使用 2 块 H100 GPU 的方案可能需要 10 万美元左右。此外,马修方案还未与 Mac mini 统一内存架构方案进行对比,Mac mini 方案可能在部署上更简单,但扩展性和性价比可能不如这套 EPYC 系统。
社区用户 yhfgyyf 对类似配置进行了测试,使用双路 EPYC 9755 处理器,单 CPU 支持 12 通道 DDR5-4800 内存。测试结果显示,最有效的配置是单 CPU 64-96 核,内存频率越高越好,且无需开启超线程功能。他还提到,实际运行中,512 线程的性能反而不如 128 线程,建议根据需求调整线程数。另一位用户 KPX 提到,Unsloth 的动态量化技术可将 Deepseek 模型压缩到 131GB,最低运行内存需求降至 80GB,为资源有限的用户提供了更多选择。关于性能,token/s 主要取决于等效总带宽,因为 LLM 推理是存储密集型任务,4090 显卡的显存带宽约为 1TB/s,而 CPU 方案通过高频 DDR5 和多通道优化也能达到不错的性能。最重要的是确保 NUMA 节点的负载均衡,否则 token/s 可能会大幅下降。
#非新闻信息 #DeepSeek #本地部署 #教程