Ⅰ 大模型究竟要多少算力国产GPU何时能替代
大模型训练成本和算力需求分析
大模型训练所需算力是一个关键议题。训练每参数每 token 的算力需求大致为常数,在训练阶段约为6FLOPs,推理阶段为2 FLOPS。平均算力成本受 GPU 性能影响,每 FLOP 的价格平均约在2.5年降低40%-50%。算力使用效率取决于软硬件优化水平,训练阶段效率可能低至20%,目前主流平台可达50%左右,推理阶段效率则在25%左右。
举例计算 GPT-3 训练所需算力,其参数规模为1750亿,训练3000亿 token,需要约3.15*10^23 FLOP 算力。以2020年算力水平为例,使用1片 V100 GPU(在FP16精度下理论算力为28TFLOP)完成此任务,需357年。若要将训练时间缩短至一个月,需要至少购买3000张以上V100(在效率不降的情况下,实际应更多)。
各主流模型可能采用的 GPU 卡数如下:
- GPT-4:可能需1万到2.5万块A100训练
- Falcon-40B:384个A100训练
- Inflection:3500个H100训练了一个等价于GPT-3.5的大模型
- LLaMA-1:2048个A100
- GPT-5:可能需3万到5万个H100(存疑)
GPT-3.5推理成本计算:参数规模为1750亿,输入500 token长度提示词,输出500 token内容,使用A100实现,算力使用效率为25%,单次推理算力需求为3.5*10^14 FLOP,成本约为0.003美元/千token。微调过的GPT-3.5-turbo售价为0.002美元/千token,基础版的GPT-3即达芬奇3是0.02美元/千token。使用A100维护微调过的GPT-3.5可能亏损,但基础版的GPT-3可能盈利。
在引入H100后,成本下降,估算为0.002美元/千token。OpenAI等企业拥有较大规模的GPU储备,如Meta的2.1万块A100、Tesla的7000块A100、StabilityAI的5000块A100、GPC的2.5万块H100、Azure的1-4万块H100等。中国企业已订购价值10亿美元的A800处理器,将于今年交付,此外还购买了40亿美元的GPU,将于2024年交付。
英伟达GPU的优势主要体现在以下几个方面:
1. 单片算力:从V100的28TFLOP到A100的312TFLOP,再到H100的1513TFLOP,支持32、64精度,减少精度损失。
2. 多芯片集群能力:GPT-3训练至少需要350G显存、1.3T内存,单卡无法达到,训练时需要多卡集群,英伟达的NVLINK技术能串联多GPU。
3. 软件生态:支持常用深度学习框架如TensorFlow、PyTorch、Caffe等,以及各类库、工具、驱动程序。
国产GPU方面,华为升腾、壁仞科技、摩尔线程等企业虽有进展,但距离英伟达仍有差距。升腾在精度和集群能力上有一定优势,但生态兼容性尚待提高。壁仞科技在单卡算力上有超越,但集群互联带宽等仍有提升空间。摩尔线程单卡性能较差,但产品线涵盖数据中心、桌面显卡等,被实体清单所影响。
综上所述,底层大模型训练国产GPU暂时难以满足需求,更适合微调或训练较小规模的模型。对于超大参数规模的模型底座,国产GPU在精度和集群能力方面存在挑战,成本相对较高。未来发展趋势将取决于国产GPU在性能、生态兼容性以及实体清单影响下的产能调整。