DeepSeek R1 在 GPU 内核优化中超越人工工程师

英伟达研究发现,DeepSeek R1可以编写自定义内核,并且“在某些情况下,这些内核比熟练工程师开发的优化内核更好”。在英伟达最新博文中,研究人员指出,DeepSeek R1不仅能够高效生成GPU内核,还在KernelBench基准测试中取得了出色成绩。该模型的优化方案有效加速了FlexAttention计算,在多个基准测试中实现了100%的数值正确性,并在一些更复杂的测试上达到96%的准确度。

DeepSeek R1生成的自定义内核在推理时间缩放和计算效率方面表现优异,能够自动执行计算密集型任务,其解决方案也非常简单,引起了很多人的震惊。有用户测试发现,使用DeepSeek R1进行15分钟的优化循环后,生成的代码在某些情况下比熟练工程师手动优化的内核更高效。

#DeepSeek #内核 #英伟达 #科技 #人工智能
Memordust
中使馆:中方反制美加税正当合理 中国驻美大使馆2月4日表示,美方以芬太尼问题为由对华加征10%关税,中方对此强烈不满,并已依据法律法规和国际法原则采取必要反制措施,同时向世贸组织提起诉讼,坚定捍卫自身权益。 发言人强调,美方以芬太尼问题为由加税属错误做法,中国是世界上禁毒政策最严格、执行最彻底的国家之一。芬太尼危机本质上是美国自身问题,而中国已于2019年整类列管芬太尼类物质,是全球第一个正式整类列管芬太尼类物质的国家。本着人道精神和美方请求,中国为美国应对芬太尼问题提供了支持,并持续与美方合作打击毒品犯罪。…
中国重启对谷歌、英伟达反垄断调查,或涉英特尔

中国政府重启对谷歌和英伟达的反垄断调查,并考虑对英特尔展开新调查,以应对特朗普政府的关税政策。

据《金融时报》引“知情人士透露”,对谷歌的调查于2019年启动但长期搁置,在2024年12月重启,重点关注Android系统的市场主导地位及对小米、欧珀(OPPO)等中国手机制造商的影响。英伟达则因2019年收购以色列芯片公司Mellanox时未履行承诺,2024年1月监管人员已与其高管会面。英特尔亦可能面临正式调查;2024年,该公司中国销售额达远超美国市场的155亿美元,占全球总收入的29%。英伟达方面,中国市场在2024年前三季度贡献了其全球销售额的13%。尽管谷歌的搜索等业务受限,但广告等业务在华收益巨大。

分析认为,中国此举旨在加强对美谈判筹码,尤其是在特朗普政府加大对华贸易施压的背景下。

#中美关系 #反垄断 #谷歌 #英伟达 #英特尔 #中国 #美国
英伟达股价跌破114.514美元。
后又小幅回升。

#快讯 #英伟达 #股市
多个科技巨头宣布推出DeepSeek模型服务

当地时间1月31日,微软在其Azure AI Foundry和GitHub上提供了DeepSeek R1模型,开发者可以利用这些平台进行实验、迭代,并将DeepSeek模型集成到他们的工作流程中。微软CEO纳德拉表示,DeepSeek-R1模型还将在微软AI电脑Copilot+ PC上运行。同日,亚马逊云科技宣布,用户可以通过Amazon Bedrock的自定义模型导入功能试用DeepSeek的R1模型。亚马逊表示,DeepSeek是一家中国人工智能初创公司,其发展势头强劲,并发布了能够以极低的成本达到与基础模型相同性能水平的模型。英伟达宣布,DeepSeek-R1模型已在英伟达官网上作为NVIDIA NIM微服务预览版提供。DeepSeek-R1 NIM微服务可以在单个NVIDIA HGX H200系统上每秒提供多达3872 tokens。

2025年2月1日,硅基流动与华为云宣布合作,推出基于昇腾云服务的DeepSeek R1/V3推理服务。该服务结合自研推理加速引擎,优化模型在昇腾云上的部署,提供与高端GPU媲美的性能,满足大规模商用需求,为稳定、生产级的服务能力提供保障。

#DeepSeek #人工智能 #微软 #亚马逊 #英伟达 #华为 #推理服务 #商业
AMD 称 RX 7900 XTX 运行 DeepSeek 模型的性能领先英伟达 RTX 4080S,部分场合胜过 4090

1月30日,AMD全球副总裁David McAfee在X平台分享了一张对比图,展示了AMD Radeon RX 7900 XTX显卡在运行DeepSeek-R1 AI模型时,与英伟达RTX 4090和RTX 4080 SUPER的性能差异。测试结果显示,RX 7900 XTX在运行较小体量的模型时,性能超过RTX 4090,最高领先幅度达13%,且全面领先RTX 4080 SUPER。

AMD官方还提供了关于如何在AMD硬件上使用DeepSeek R1模型的说明,并列出了不同型号显卡支持的DeepSeek R1模型参数体量。用户需确保显卡驱动版本为Adrenalin Edition 25.1.1或更高版本,并安装LM Studio 0.3.8或更高版本。

#AMD #显卡 #DeepSeek #人工智能 #英伟达
英伟达宣布 DeepSeek-R1 可在 NVIDIA NIM 上使用

英伟达在其官网上发布文章表示,DeepSeek-R1 是一款具备最先进推理能力的开放模型,现已可在 NVIDIA NIM 上使用。与直接提供回应不同,DeepSeek-R1 等推理模型会对查询进行多次推理处理,使用连锁思维、共识和搜寻方法来生成最佳答案。

为了帮助开发者安全地试验这些功能并构建他们自己的专用代理,DeepSeek-R1 模型现在可作为 NVIDIA NIM 微服务预览版使用。开发者可以测试和使用应用程序界面 (API),该界面预计将很快作为可下载的 NIM 微服务提供,这是 NVIDIA AI Enterprise 软件平台的一部分。

#DeepSeek #英伟达 人工智能 #商业
DeepSeek 使用 Nvidia PTX 实现高效计算优化

DeepSeek 在训练其 V3 模型时,通过使用 Nvidia 的 PTX(并行线程执行)语言进行编程,实现了比标准 CUDA 更高效的性能优化。PTX 是一种中间指令集架构,位于高级 GPU 编程语言和低级机器代码之间,允许进行细粒度的寄存器分配和线程/warp 级别调整,这是传统 CUDA 无法实现的。

为了进一步提升性能,DeepSeek 对 H800 GPU 进行了重新配置,将 132 个流式多处理器中的 20 个专门用于服务器间通信,可能用于数据压缩和解压,以克服处理器连接限制并加速计算。此外,DeepSeek 还实现了高级管道算法,通过超精细的线程/warp 级别调整,最大限度地提高了计算效率。这种深层次的优化展示了 DeepSeek 工程师的技术实力,尽管维护难度较高,但为模型训练提供了显著的性能提升。

#DeepSeek #英伟达 #GPU #人工智能
英伟达称DeepSeek的突破“完全”符合美国出口限制法规

人工智能初创公司DeepSeek近日发布的R1模型在业界引起轰动,其性能媲美OpenAI顶级模型,但训练成本仅为后者的五十分之一。这一突破不仅展示了中国在AI领域的创新能力,也引发了对美国出口管制政策有效性的质疑。

针对外界对DeepSeek GPU采购渠道的猜测,英伟达官方发布声明,称DeepSeek的突破“完全”符合美国出口管制法规。英伟达强调,DeepSeek使用了专为中国市场设计的NVIDIA H800芯片,这些芯片在2023年10月前仍被允许出口至中国。此前,Scale AI CEO亚历山大·王声称DeepSeek拥有五万块H100芯片,引发关于其可能违反出口禁令的质疑。英伟达的表态无疑是对DeepSeek合规性的有力背书。

英伟达表示,DeepSeek的成功得益于其创新的“测试时间扩展”技术,能够在现有硬件条件下高效训练模型。这一技术不仅降低了训练成本,还展示了在出口限制下实现技术突破的可能性。然而,DeepSeek的低成本方案对英伟达股价造成冲击,当日股价暴跌17%,市值蒸发6000亿美元。市场担忧,DeepSeek的成功可能降低对高性能计算卡的需求,进而影响英伟达的市场地位。

#DeepSeek #英伟达 #人工智能 #出口管制 #商业
英伟达发言人:DeepSeek的工作展示了如何利用广泛可用的模型和有限的算力来创建新模型。

#快讯 #英伟达 #DeepSeek
英伟达股价受DeepSeek冲击下跌5%

2025年1月26日,英伟达(NASDAQ:NVDA)股价下跌5%至135.20美元,主因中国AI公司深度求索(DeepSeek)发布低成本高性能的R1大语言模型引发市场担忧。该模型在多项测试中超越OpenAI、Meta产品,预训练成本仅557.6万美元(为GPT-4o的1/20),且使用约5万台英伟达H100芯片,未依赖最新尖端硬件。分析人士指出,R1的高效算法可能削弱市场对英伟达高端芯片的需求预期,促使企业转向“精简开发”策略。

此外,美股市场整体受挫,反映出市场对AI领域高额投资的信心动摇。纳斯达克100指数期货下跌1.8%,标普500指数期货跌近1%,主导美国“星际之门”AI项目的软银集团股价一度跌超6%,藤仓大跌超8%,博通跌超4%,东京电子和Disco均跌超3%。日经225指数盘中转跌。

#英伟达 #DeepSeek #人工智能 #股市
Memordust
黄仁勋现身英伟达北京年会 1月19日,英伟达在北京举办迎新年会,创始人兼首席执行官黄仁勋亲自出席,与中国员工共庆佳节。这已是黄仁勋连续第二年在中国与员工共度春节,充分体现了英伟达对中国市场的重视。 黄仁勋此前表示,将不会出席美国当地时间1月20日举行的特朗普总统就职仪式。 黄仁勋表示,此次来访中国是为了和员工庆祝春节,英伟达关心的是如何服务好客户。黄仁勋本次来华还将走访上海、深圳等多地分公司。 #英伟达 #黄仁勋
英伟达CEO黄仁勋在京迎新年会致辞:AI开启新时代,深耕中国25年

1月19日晚,英伟达在北京举办迎新年会,创始人兼CEO黄仁勋出席并发表致辞。黄仁勋以中文“中国朋友大家好”开场,表示“我们聚在这里是为了庆祝一个新的开始,这是新的一年的开始,也是被称为人工智能的新时代的开始。”

他指出,AI正在重新定义计算机的未来,60年前的通用计算机技术将因AI迎来重大突破。黄仁勋表示,“计算机不再需要编码,而是机器学习,它创造的软件不是软件程序,而是人工智能,运行的计算机是一种新型的计算机”。黄仁勋还表示,AI已深入日常生活,并将在教育、医疗、零售、交通和农业等领域带来变革。

黄仁勋回顾了英伟达在中国25年的发展历程,提到Geforce显卡使英伟达较早进入中国市场,并笑称“许多中国研究者是用英伟达显卡玩电子游戏长大的”。他还透露,尽管CUDA编程平台复杂,但中国开发者数量已达150万人,英伟达正与近3000家中国初创企业合作。

#英伟达 #黄仁勋
黄仁勋现身英伟达北京年会

1月19日,英伟达在北京举办迎新年会,创始人兼首席执行官黄仁勋亲自出席,与中国员工共庆佳节。这已是黄仁勋连续第二年在中国与员工共度春节,充分体现了英伟达对中国市场的重视。

黄仁勋此前表示,将不会出席美国当地时间1月20日举行的特朗普总统就职仪式。

黄仁勋表示,此次来访中国是为了和员工庆祝春节,英伟达关心的是如何服务好客户。黄仁勋本次来华还将走访上海、深圳等多地分公司。

#英伟达 #黄仁勋
 
 
Back to Top