<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>本地部署 | Memordust</title><description/><link>https://broadcastchannel-6wd.pages.dev</link><item><title>著名人工智能社区 Hugging Face 的工程师马修·卡里根展示了在本地运行 Deepseek-R1 的完整硬件和软件设置</title><link>https://broadcastchannel-6wd.pages.dev/posts/383</link><guid isPermaLink="true">https://broadcastchannel-6wd.pages.dev/posts/383</guid><pubDate>Wed, 29 Jan 2025 03:59:06 GMT</pubDate><content:encoded>&lt;video src=&quot;/static/https://cdn5.telesco.pe/file/e77eb83ef1.mp4?token=tJjO5kiZhh38ky26ht12tdWBdGM_nOx7sHJQkR4Nu-xN-xTEx603dcuZ4uv8bYtHw8kZz0nGSbhIZqe1xnGykr4xBStBgrftZF9sFXMnuXGuVHouFkhb0uiyE_GWDbsJXQrOALVBr1Lwy5uViwc22aWJ5Ncnfx-m0YMy1toBCkClKRk_1oMnfdBlK1QtjpPEtsMqQanN962DZtILR5kHB4aJYVWxWyC1bzrYI8OucINFjJ44gsc5uk0TElimbpwfxGxu8Jskq6T8yphkfLnB1VN1dEPPNJSgJ5B3UVVUUKp0mvuEn1yr4jUZTBEkAhomMPd-X3WbeJircSU-Mx7iNQ&quot; width=&quot;100%&quot; height=&quot;100%&quot;&gt;&lt;/video&gt;著名人工智能社区 Hugging Face 的工程师马修·卡里根展示了在本地运行 Deepseek-R1 的完整硬件和软件设置。&lt;b&gt;他使用的是 670B 参数的模型，无蒸馏处理，采用 Q8 量化技术，能够实现全质量推理。整个系统的总成本约为 6000 美元，性价比极高。&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;硬件方面，主板使用技嘉 MZ73-LM0 或 MZ73-LM1，它们具有 2 个 EPYC 插槽，提供 24 个 DDR5 RAM 通道。CPU 方面，可以使用 2 个 AMD EPYC 9004 或 9005 CPU（任何的）。他强调，LLM 的瓶颈在于内存带宽，因此不需要高端 CPU，如果想降低成本，可以购买 9115 甚至 9015。内存是这套系统的关键部分，为了适应 670B 模型的需求，马修配置了 768GB 的内存，具体是 24 个 32GB 的 DDR5-RDIMM 模块，这样做的目的是充分利用 24 个内存通道，确保内存带宽足够快，从而提升模型的推理速度。尽管这套系统的功耗并不高（低于 400W），但由于需要为两个 EPYC CPU 供电，马修选择了 Corsair HX1000i 电源，这款电源不仅功率足够，还提供了大量的 CPU 电源接口，能够满足系统的供电需求。机箱需要支持完整尺寸的服务器主板，并且要有足够的螺丝安装座，散热器方面，马修选择了兼容 AMD EPYC SP5 插槽&lt;br /&gt;的型号，确保 CPU 在高负载下也能保持稳定运行。为了加速模型的加载过程，马修推荐使用 1TB 或更大容量的 NVMe SSD，在启动模型时，需要将 700GB 的模型数据从 SSD 复制到内存中，NVMe 的高速度可以显著减少加载时间。&lt;br /&gt;&lt;br /&gt;软件部分，首先需要安装 Linux 操作系统，然后进入 BIOS 设置，将 NUMA 组数设置为 0，确保模型的每一层数据都交错分布在所有的 RAM 芯片上，从而提升内存吞吐量。接下来，安装 Llama 框架，并下载 700GB 的  DeepSeek-R1-Q8_0 版本。一切就绪后，就可以使用以下代码运行 Deepseek-R1：    &lt;b&gt;llama-cli -m ./DeepSeek-R1.Q8_0-00001-of-00015.gguf --temp 0.6 -no-cnv -c 16384 -p &quot;&amp;lt;｜User｜&amp;gt;How many Rs are there in strawberry? &amp;lt;｜Assistant｜&amp;gt;&quot;&lt;/b&gt;    。运行后，系统会经历一个短暂的加载过程，随后模型开始在本地思考问题并生成结果。&lt;br /&gt;&lt;br /&gt;马修指出，系统生成速度约为 6~8 tokens/s，虽不及 GPU 方案快，但考虑到成本，这完全是一个可接受的折中方案。该方案完全基于 CPU，未使用 GPU，因此成本较低。他特别强调，Q8 量化的 670B 模型在质量上与 Deepseek API 提供的服务几乎没有区别。若想进一步提升速度，可考虑使用 GPU，但成本会大幅增加，例如使用 2 块 H100 GPU 的方案可能需要 10 万美元左右。此外，马修方案还未与 Mac mini 统一内存架构方案进行对比，Mac mini 方案可能在部署上更简单，但扩展性和性价比可能不如这套 EPYC 系统。&lt;br /&gt;&lt;br /&gt;社区用户 yhfgyyf 对类似配置进行了测试，使用双路 EPYC 9755 处理器，单 CPU 支持 12 通道 DDR5-4800 内存。测试结果显示，最有效的配置是单 CPU 64-96 核，内存频率越高越好，且无需开启超线程功能。他还提到，实际运行中，512 线程的性能反而不如 128 线程，建议根据需求调整线程数。另一位用户 KPX 提到，Unsloth 的动态量化技术可将 Deepseek 模型压缩到 131GB，最低运行内存需求降至 80GB，为资源有限的用户提供了更多选择。关于性能，token/s 主要取决于等效总带宽，因为 LLM 推理是存储密集型任务，4090 显卡的显存带宽约为 1TB/s，而 CPU 方案通过高频 DDR5 和多通道优化也能达到不错的性能。最重要的是确保 NUMA 节点的负载均衡，否则 token/s 可能会大幅下降。&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23%E9%9D%9E%E6%96%B0%E9%97%BB%E4%BF%A1%E6%81%AF&quot;&gt;#非新闻信息&lt;/a&gt; &lt;a href=&quot;/search/%23DeepSeek&quot;&gt;#DeepSeek&lt;/a&gt; &lt;a href=&quot;/search/%23%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2&quot;&gt;#本地部署&lt;/a&gt; &lt;a href=&quot;/search/%23%E6%95%99%E7%A8%8B&quot;&gt;#教程&lt;/a&gt;</content:encoded></item></channel></rss>