欢迎来到不出所料网网首页

DeepSeek一天能赚多少钱?官方突然透露!陆晨科技暂停了DeepSeekek API服务

来源:不出所料网 时间:2025-03-13 07:38:56

  关注DeepSeek的天能突然透露最新消息!

  。赚多暂停首次披露:理论成本利润率为545%。少钱福建南纺

  3月1日,官方当市场认为DeepSeek的陆晨开源周内容发布时,DeepSeek宣布“One More Thing突然,科技V3/R1推理系统被揭露,天能突然透露成本和收入被大规模部署。赚多暂停

  根据《DeepSeek-V3/R1推理系统概述文章假设GPU租赁成本为2美元/小时,少钱总成本为87072美元/天;如果所有的官方tokens都遵循deepseek 根据R1的定价计算,理论上一天的陆晨总收入为562027美元/天,成本利润率为545%。科技

  。天能突然透露据官方披露,赚多暂停DeepSeek-V3/R1推理系统的少钱优化目标是:吞吐量更大,延迟更低。

  为了实现这两个目标,DeepSeek并行使用大型跨节点专家(Expert Parallelism / EP)。首先,EP使batch使batch使用 大大提高了size,从而提高了GPU矩阵乘法的福建南纺效率和吞吐量。其次,EP将专家分散在不同的GPU上,每个GPU GPU 只需计算少数专家(因此访问存储的需求较少),以减少延迟。

  但EP也增加了系统的复杂性。复杂性主要体现在两个方面:

  EP引入跨节点传输。为优化吞吐,需要设计适当的计算流程,使传输和计算能够同步进行。

  EP涉及多个节点,自然需要Data Parallelism(DP),负载平衡需要在不同DP之间进行。

  因此,Deepseek介绍了如何使用EP来增加batch size,如何隐藏传输的耗时,如何平衡负载。

  。大规模跨节点专家并行并行(Expert Parallelism / EP)。

  由于DeepSeek-V3/R1的专家数量众多,每层256位专家中只有8位被激活。模型的高度稀疏性决定了必须使用大型overalll batch size,为每个专家提供足够的expertt batch size,从而实现更大的吞吐量和更低的延迟。大规模跨节点专家需要并行平行(Expert Parallelism / EP)。

  采用多机多卡间专家并行策略,实现以下目标:

  。Prefill。:EP32路由专家、MLA和共享专家DP32,一个部署单元是4节点,32个冗余路由专家,每张卡9个路由专家和1个共享专家。

  。Decode。:EP144路由专家、MLA和共享专家DP144,部署单元18 节点,32个冗余路由专家,每张卡2个路由专家,1个共享专家。

  。计算通信重叠。

  多机多卡专家并行引入较大的通信费用,因此采用双batch重叠来掩盖通信费用,改善整体吞吐量。

  对于prefill阶段,两个batch的计算和通信交错进行,一个batch可以在计算时掩盖另一个batch的通信费用;

  对于decode阶段,不同阶段的执行时间不同,因此将attention部分拆分为两个stage,共有5条stage装配线,实现计算和通信的重叠。

  。负载平衡尽可能多。

  如果GPU的计算或通信负载过重,则采用大规模平行(包括数据平行和专家平行),将成为性能瓶颈,减缓整个系统;同时,其他GPU因等待而空转,导致整体利用率下降。因此,计算负载和通信负载应尽可能均衡地分配给每个GPU。

  。PrefillLoadBalancer。

  核心问题:不同数据并行(DP)实例中的要求数量和长度不同,导致core-atention计算量和dispatch发送量不同。

  优化目标:每个GPU的计算量尽可能相同(core-attention计算负载均衡)、输入的token数量尽可能相同(dispatch输送负载均衡),避免部分GPU处理时间过长。

  。DecodeLoadBalancer。

  核心问题:不同数据并行(DP)实例中的要求数量和长度不同,导致core-attention计算量(与KVCache占用量有关)、dispatch发送量不同。

  优化目标:每个GPU的KVCache占用量尽可能相同(core-attention计算负载均衡)、请求数量尽可能相同(dispatch发送负载均衡)。

  。Expert-ParallelLoadBalancer。

  核心问题:对于给定的MoE模型,有一些自然的高负荷专家(expert),导致不同GPU的专家计算负载不平衡。

  优化目标:每个GPU上的专家计算均衡(即最小化所有GPUDispatch接收量的最大值)。

  。在线系统的实际统计数据。

  H800GPU用于DeepSeekV3和R1的所有服务,使用与训练一致的精度,即矩阵计算和Dispatch传输采用与训练一致的FP8格式,core-BF16采用与combine传输相同的attention计算和训练,最大限度地保证了服务效果。

  此外,由于白天服务负荷高,晚上服务负荷低,白天负荷高的时候,实现了一套推理服务部署在所有节点的机制。当夜间负荷较低时,减少推理节点进行研究和训练。最近24小时(北京时间2025/02/27 12:00至2025/02/28 12:00),DeepSeek。-。V3和R1推理服务占据节点总和,峰值占278个节点,平均占226.75个节点(每个节点占8个H800GPU)。。假设GPU租赁成本为2美元/小时,总成本为87072美元/天。

  在24小时统计期内,DeepSeek。-。V3和R1:

  输入token总数为608B,其中342btokens(56.3%)命中KVCache硬盘缓存。

  总输出token为168B。平均输出速率为20~22tps,KVCache长度为4989,平均每输出一个token。

  每台H800的平均吞吐量为:对于prefill任务,吞吐量约为73.7ktokens/s(含缓存命中);对于decode任务,输出吞吐量约为14.8ktokens/s。

  。上述统计数据包括网页、APP和API的所有负载。如果所有tokens都按照deepseek-R1的定价计算,理论上一天的总收入是562027美元,成本利润率是545%。当然,实际上没有那么多收入,因为V3的价格更低,收费服务只占一部分,晚上也会有折扣。

  一些网民将DeepSeek与OpenAI进行了比较,并表示:“‘成本利润率为545%’,等一会儿,所以你是说我被OpenAI抢劫了?”。

  。鹿晨科技暂停了Deepsekekek API服务。

  在DeepSeek披露大规模部署成本和收入后,陆晨科技突然宣布:“亲爱的用户,陆晨云将在一周后停止提供DeepSeek API服务,请尽快用完余额。若未用完,我们将全额退款。”。

  此前,2月4日晚,华为计算微信微信官方账号发帖称,DeepSeek-R1系列模型的开源因其优异的性能和低开发成本而引起了全球的热烈讨论和关注。陆晨科技携手升腾,联合发布了基于升腾计算能力的DeepSeek-R1系列推理API和云镜像服务。

  但最近陆晨科技首席执行官尤洋指出,全血版DeepSeek-R1每百万token(输出)定价16元,如果每天输出1000亿token,接入方企业每月可获得4800万元的收入。根据他的计算,需要大约4000台配备H800的机器来完成1000亿标签的输出。根据目前H800的市场价格或折旧,仅机器的月成本就达到4.5亿元。因此,企业每月可能面临4亿元的亏损,“用户越多,服务成本越高,亏损越多”。

  3月1日下午4点,陆晨科技首席执行官尤洋发文回应DeepSeek公布的理论成本利润率。

  根据公开信息,六晨科技是一家致力于“解放人工智能生产力”的全球性企业。其核心成员来自国内外知名大学,如加利福尼亚大学伯克利分校、斯坦福大学、清华大学和北京大学。主要业务包括分布式软件系统、大型人工智能平台和企业云计算解决方案。公司旨在打造Colosall,开源低成本AI大模型开发系统-AI,作为深度学习框架的核心,在最大限度地降低人工智能培训成本的同时,帮助企业最大限度地提高人工智能培训效率。

(文章来源:中国基金报)。