<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>GPU | Memordust</title><description/><link>https://broadcastchannel-6wd.pages.dev</link><item><title>DeepSeek 使用 Nvidia PTX 实现高效计算优化  DeepSeek 在训练其 V3 模型时，通过使用 Nvidia 的 PTX（并行线程执行）语言进行编程，实现了比标准 CUDA 更高效的性能优化</title><link>https://broadcastchannel-6wd.pages.dev/posts/386</link><guid isPermaLink="true">https://broadcastchannel-6wd.pages.dev/posts/386</guid><pubDate>Wed, 29 Jan 2025 05:17:01 GMT</pubDate><content:encoded>&lt;b&gt;DeepSeek 使用 Nvidia PTX 实现高效计算优化&lt;/b&gt;  &lt;br /&gt;&lt;br /&gt;DeepSeek 在训练其 V3 模型时，通过使用 Nvidia 的 PTX（并行线程执行）语言进行编程，实现了比标准 CUDA 更高效的性能优化。PTX 是一种中间指令集架构，位于高级 &lt;mark&gt;GPU&lt;/mark&gt; 编程语言和低级机器代码之间，允许进行细粒度的寄存器分配和线程/warp 级别调整，这是传统 CUDA 无法实现的。  &lt;br /&gt;&lt;br /&gt;为了进一步提升性能，DeepSeek 对 H800 &lt;mark&gt;GPU&lt;/mark&gt; 进行了重新配置，将 132 个流式多处理器中的 20 个专门用于服务器间通信，可能用于数据压缩和解压，以克服处理器连接限制并加速计算。此外，DeepSeek 还实现了高级管道算法，通过超精细的线程/warp 级别调整，最大限度地提高了计算效率。这种深层次的优化展示了 DeepSeek 工程师的技术实力，尽管维护难度较高，但为模型训练提供了显著的性能提升。  &lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23DeepSeek&quot;&gt;#DeepSeek&lt;/a&gt; &lt;a href=&quot;/search/%23%E8%8B%B1%E4%BC%9F%E8%BE%BE&quot;&gt;#英伟达&lt;/a&gt; &lt;a href=&quot;/search/%23GPU&quot;&gt;#GPU&lt;/a&gt; &lt;a href=&quot;/search/%23%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&quot;&gt;#人工智能&lt;/a&gt;</content:encoded></item></channel></rss>