DeepSeek R1 在 GPU 内核优化中超越人工工程师

英伟达研究发现,DeepSeek R1可以编写自定义内核,并且“在某些情况下,这些内核比熟练工程师开发的优化内核更好”。在英伟达最新博文中,研究人员指出,DeepSeek R1不仅能够高效生成GPU内核,还在KernelBench基准测试中取得了出色成绩。该模型的优化方案有效加速了FlexAttention计算,在多个基准测试中实现了100%的数值正确性,并在一些更复杂的测试上达到96%的准确度。

DeepSeek R1生成的自定义内核在推理时间缩放和计算效率方面表现优异,能够自动执行计算密集型任务,其解决方案也非常简单,引起了很多人的震惊。有用户测试发现,使用DeepSeek R1进行15分钟的优化循环后,生成的代码在某些情况下比熟练工程师手动优化的内核更高效。

#DeepSeek #内核 #英伟达 #科技 #人工智能
 
 
Back to Top