欢迎来到不出所料网网首页

华泰证券:预计DeepEP开源将释放推理需求 注重应用和计算能力

来源:不出所料网 时间:2025-03-13 00:59:21

  华泰证券认为,华泰通过优化推理成本,证券重DeepSeek有望加速LLM的预计用和海口今天气温多少度最高商业应用。基于此,开源云制造商有望从推理需求的将释计算释放中受益,推动IaaS服务提供商的放推增加。其次,理需考虑到R1可以提高模型能力,求注实现低成本部署,华泰预计将加速人工智能应用程序的证券重渗透。最后,预计用和尽管Depep仍然需要在Hopper CUDA 在NVLink的开源海口今天气温多少度最高框架下实现,但从中长期来看,将释计算随着国内卡的放推适应和跟进,预计该技术将转移到更多的理需国内生态系统,国内人工智能计算能力部门预计将迎来增长机会。

  全文如下。

  。华泰 | 计算机:DeepSeek - EP降本,注重应用和计算能力。

  2025年3月1日,Deepseek发布《One More Thing, DeepSeek-V3/R1 Inference System Overview》,其中,DeepSeeek通过大型跨节点专家并行,实现了$87、072/天的低成本推理,有效计算能力显著提高。我们认为,随着国内计算能力硬件逐渐适应DeepEP系统,DeepSeek模型或通过性价比优势推动推理需求释放,预计国内计算能力将加速增长。

  。核心观点。

  核心亮点:推理成本大幅降低,理想状态下15%的付费率可以平衡盈亏。

  根据Deepseek,V3和R1推理服务占据节点总和,峰值占278个节点,平均占226.75个节点。Deepseek假设GPU租赁成本为2美元/小时,总成本为$87072/天。另外,2025/02/27 12:00 PM至2025/02/28 12:00 PM,Token消耗V3和R1模型推理 776B(输入608B 输出168B),Token的平均处理成本为0.11美元。如果所有Tokens都按照DeepSeekr1的定价计算,理论上一天的总收入为$562,027,成本利润率为545%。但考虑到Deepseek目前只通过API收费,我们计算,如果按R1收费定价,支付Token占Token总额的15%,推理过程中的盈亏平衡就可以实现。

  核心技术:通过EP实现更高的吞吐量和更低的延迟。

  DeepSeek-V3 / R1 推理系统的优化目标是:吞吐量更大,延迟更低。为了实现这两个目标,DeepSeek的方案是使用大型跨节点专家并行(Expert Parallelism/EP),并开源了DeepEP代码。具体来说,核心能力包括:1)大型跨节点专家并行:采用预填充-解码分解架构,多位专家在不同阶段并行计算;2)计算/通信重叠:将GPU中的SM(流多处理器)分为计算和通信两部分,同时执行相应的工作负载,减少延迟等待时间;3)负载平衡:通过预填充负载平衡、解码负载平衡和专家并行负载平衡,尽可能为每个人提供 GPU 计算负载和通信负载分配均衡。

  核心原因:推理定价/成本的差异或外部计算能力供应有限的结果。

  相比之下,OpenAI等海外模型 o3-mini在推理定价方面比deepseek更贵,比如每百万token输入的价格是$0.55(缓存命中),而R1是$0.14。在我们看来,API定价的很大一部分差异可能来自于推理成本的差异。DeepSeek可以通过EP等更极端的软硬件优化来节省推理成本。在我们看来,这一现象的背后,反映了国内外计算能力供应和产业方向的差异。在计算能力供应有限的背景下,国内大型模型制造商通过技术优化不断挤压硬件性能,在计算能力有限的情况下达到最佳模型效果。在此基础上,我们认为国内模型有望推动下游商业应用,凭借性价比优势提升全球市场份额。

  核心效益:DeepEP开源有望释放推理需求,注重应用和计算能力。

  通过优化推理成本,我们认为DeepSeek有望加速LLM的商业应用。基于此,我们乐观地认为,推理需求的释放将推动IaaS服务提供商的增加,云制造商有望受益。其次,考虑到R1可以提高模型能力,实现低成本部署,预计将加速人工智能应用程序的渗透。最后,尽管目前DeepEP仍需要Hopper CUDA 在NVLink的框架下实现,但从中长期来看,随着国内卡的适应和跟进,预计该技术将转移到更多的国内生态系统,国内人工智能计算能力部门预计将迎来增长机会。

  风险提示:人工智能技术迭代低于预期;人工智能商业化低于预期;本报告基于客观信息,不构成投资建议。

图片
图片

(文章来源:证券时报)。