DeepSeek的真实成本分析

最近DeepSeek火得一塌糊涂,虽然战绩确实很强,但国内一贯的造神风格,总会夸大很多事,比如DeepSeek的成本:550万美元,打败了美国几亿美元。

其实网上的这些说法,DeepSeek从来没有说过,他们只在论文中提到了自己的训练成本是5.576M USD,也就是557.6万美元。这当然不是总成本,而且还差别非常大。

GPU配置

DeepSeek的论文提到,DeepSeek-V3使用了2048块H800 GPU进行训练。

三洋洗衣机售后服务维修中心

而Meta在其论文中提到使用了超过16000块GPU的集群。DeepSeek的这一配置可能是其最有效的预训练集群,但受限于芯片禁运的政策,DeepSeek的H100 GPU数量显然是不如Meta的,而H800的性能是不如H100的:

网络带宽

显存带宽

算力

由于幻方(DeepSeek)没有对外公布过GPU的数量,很多GPU是禁运的,肯定也不能公布,所以外界都是根据其他数据进行估计,像SemiAnalysis的评估数据如下:

也有其他可信度较高的报告称,DeepSeek拥有的GPU数量约为2万至5万个(以A100为基准)。无论如何,虽远低于Meta的规模,但仍属于全球范围内计算资源最丰富的机构之一。

大模型训练的风险

由于GPU的资源是非常宝贵的,因此长时间占用公司中最宝贵的GPU资产来训练一个模型存在极高风险。例如,SemiAnalysis指出,OpenAI的Orion项目因需要大量计算资源而耗时超过3个月完成训练,这种情况是OpenAI明确希望避免的。相比之下,快速迭代小型模型(如o3)更具灵活性。

实验与预训练成本

模型开发过程中用于实验的总计算量远高于最终报告的数字,语言模型实验室通常会通过scaling laws降低预训练风险,这意味着在大规模训练之前会进行数千次小规模实验(如10亿至70亿参数量),以验证模型的有效性。

据推测,DeepSeek-V3的预训练实验总计算量可能是论文中报告数字的2~4倍。此外,DeepSeek还可能使用了其他项目(如DeepSeek R1 Lite)作为合成数据的来源,进一步增加了计算开销。

计算成本与所有权

计算资源的成本估算需要考虑多个因素:sstimulate

1. GPU的所有权与租赁

DeepSeek是否拥有或租用了这些GPU尚不清楚。假设DeepSeek拥有这些GPU,则其总拥有成本(TCO)将包括硬件采购、电力消耗和其他运营成本。

手机助手pp

2. 云服务合作的可能性

这些成本并不一定全部由DeepSeek承担,因为它们可能与云服务提供商合作。即使如此,仅计算资源的成本(不包括电力等其他费用)每年也可能达到数亿美元。

除了硬件成本,DeepSeek-V3的成功还离不开庞大的技术团队:

与其他公司的对比

尽管DeepSeek-V3的成本估算远高于其他开源模型,但从行业角度来看,这一投入仍处于合理范围内:Meta和OpenAI等美国科技公司在AI模型开发上的年均投入已接近或超过100亿美元。相比之下,DeepSeek-V3的成本显得更为经济高效。

未经允许不得转载:科技让生活更美好 » DeepSeek的真实成本分析