您现在的位置是:综合 >>正文

周末,DeepSeek扔出了“王炸”!成本利润率首次披露 影响多大?

综合5人已围观

简介周六,国内AI大模型公司DeepSeek官方账号在知乎首次发布《DeepSeek-V3/R1推理系统概述技术文章不仅披露了其推理系统的核心优化方案,而且首次披露了成本利润率等关键数据,引发了行业冲击。 ...

  周六,王炸国内AI大模型公司DeepSeek官方账号在知乎首次发布《DeepSeek-V3/R1推理系统概述技术文章不仅披露了其推理系统的周末核心优化方案,而且首次披露了成本利润率等关键数据,扔出刀剑封魔录之上古传说修改器引发了行业冲击。成本次披

  数据显示,利润率首露影如果按理论定价计算,响多其单日成本利润率高达545%,王炸刷新了全球人工智能大模型领域的周末利润上限。

  行业分析指出,扔出DeepSeek的成本次披开源策略和成本控制能力正在打破人工智能领域的资源垄断。“透明”披露不仅展示了其技术实力和商业潜力,利润率首露影而且向行业发出了明确的响多信号:人工智能大模型的利润闭环已经从理想的照片转变为现实。

  。王炸最新发布的周末DeepSeek。

  3月1日,扔出刀剑封魔录之上古传说修改器DeepSeek在知乎开立官方账号,发布《DeepSeek-V3/R1推理系统概述技术文章首次公布了模型推理系统优化的细节,并披露了成本利润率的关键信息。

  文章写道:“文章写道:“DeepSeek-V3/ R1推理系统的优化目标是:吞吐量更大,延迟更低。”。

  为了实现这两个目标,DeepSeek的方案是使用大型跨节点专家并行(EP),但该方案也增加了系统的复杂性。文章的主要内容是如何使用EP增长批量(batch size)、隐藏传输时间和负载平衡。

  值得注意的是,本文还率先披露了DeepSeek的理论成本和利润率等关键信息。

  根据DeepSeek的官方披露,DeepSeek H8000用于V3和R1的所有服务 GPU,在矩阵计算和dispatch中使用与训练相同的精度 FP8格式与训练一致,core-BF16采用与combine传输相同的attention计算和训练,最大限度地保证了服务效果。

  此外,由于白天服务负荷高,晚上服务负荷低,Deepseek实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。当夜间负荷较低时,减少推理节点进行研究和训练。

  最近24小时(2025年2月27日):00至28日12:00)统计周期:GPU租赁成本按2美元/小时计算,日均成本为87072美元;如果所有输入/输出token按R1定价(输入1元/百万token)、输出16元/百万token)计算,单日收入可达562027美元,成本利润率高达545%。

  然而,Deepseek正式承认,由于V3的价格较低,收费服务只占一部分,而且晚上会有折扣,实际上没有那么多收入。

  DeepSeek的高利润率源于其创新的推理系统设计,其核心包括大规模跨节点专家并行(EP)、计算通信重叠和负载平衡优化三个技术支柱:专家平行(EP)提高吞吐量和响应速度,采用EP策略扩大模型稀疏度(每层只激活8/256名专家)的整体批处理规模(batch size),确保各专家获得足够的计算负载,显著提高GPU利用率;部署单元动态调整(如Prefill阶段4节点、Decode阶段18节点),平衡资源分配和任务需求。

  计算和通信重叠隐藏延迟,Prefill阶段通过“双batch交错”实现计算和通信并行,Decode阶段将attention分为多级流水线,最大限度地掩盖通信费用。

  对于不同的并行模式(数据并行DP),全局负荷均衡,避免资源浪费、专家并行EP)设计动态负载平衡器,确保GPU的计算量、通信量和KVCache占用平衡,避免节点空转。

  简单来说,EP就像“多人合作”,将模型中的“专家”分散到多个GPU上进行计算,大大提高了Batch Size,挤压GPU计算能力,同时分散专家,降低内存压力,响应更快。

  在工程层面,DeepSeek进一步降低了成本。昼夜资源配置:白天高峰时段全力支持推理服务,夜间闲置节点用于研发培训,最大限度地提高硬件利用率;缓存命中率为56.3%:通过KVCache硬盘缓存减少重复计算,3420亿(56.3%)直接命中token中的缓存,大大降低了计算能耗。

  。影响多大?

  一些分析人士表示,Deepseek披露的数据不仅验证了其技术路线的商业可行性,而且为该行业树立了高效利润的基准:其模型培训成本仅为同类产品的1%-5%,此前发布的Deepseek-V3模型培训成本仅为57.6万美元,远低于OpenAI等巨头;推理定价优势,DeepSeek-API定价仅为OpenAI o3-mini的1/7-1/2,低成本策略加速了市场渗透。

  行业分析指出,DeepSeek的开源策略和成本控制能力正在打破人工智能领域的资源垄断。“透明”披露不仅显示了其技术实力和商业潜力,而且向行业发出了明确的信号:人工智能大模型的利润闭环已经从理想转向现实,标志着人工智能技术从实验室到工业化的关键转折点。

  中信证券认为,Deepseek在降低模型培训成本方面的最佳实践预计将刺激科技巨头以更经济的方式加快对尖端模型的探索和研究,并解锁和实施大量的人工智能应用。算法培训带来的规模报酬增加效应和单位计算能力成本降低对应的杰文斯悖论,都意味着中短期维度科技巨头在人工智能计算能力领域继续持续,规模投资仍将是一个高确定性事件。

  本周以来,DeepSeeek开启了“开源周”,在人工智能领域扔下了几颗“重磅炸弹”。回顾这五天DeepSeek开源的内容,信息量很大。具体来说:

  周一,DeepSeek宣布开源FlashMLA。Flashmla是用于Hoper的Depseeek GPU高效MLA解码内核,优化可变长度序列,已投入生产;

  周二,Deepseek宣布开源DeepEP,即第一个用于Moe模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核;

  周三,DeepSeek宣布开源DeepGEMM。同时支持密集布局和两种MoE布局,完全实时编译,可以为V3/R1模型的训练和推理提供强有力的支持;

  周四,Deepseek宣布开源Optimizeded Parallelism Strategies。主要针对大规模训练中的效率问题;

  周五,Deepseek宣布开源Fire-Flyer文件系统(3FS)和基于3FS的数据处理框架Smalpond。

  因此,有网友评论道:“《DeepSeek-V3/R1推理系统概述技术文章是“开源周彩蛋””。

  至此,DeepSeek“开源周”的连载可能已经结束,但DeepSeek的后续行动仍然值得关注。

(文章来源:数据宝)。

Tags:

相关文章