Ⅰ 大模型究竟要多少算力國產GPU何時能替代
大模型訓練成本和算力需求分析
大模型訓練所需算力是一個關鍵議題。訓練每參數每 token 的算力需求大致為常數,在訓練階段約為6FLOPs,推理階段為2 FLOPS。平均算力成本受 GPU 性能影響,每 FLOP 的價格平均約在2.5年降低40%-50%。算力使用效率取決於軟硬體優化水平,訓練階段效率可能低至20%,目前主流平台可達50%左右,推理階段效率則在25%左右。
舉例計算 GPT-3 訓練所需算力,其參數規模為1750億,訓練3000億 token,需要約3.15*10^23 FLOP 算力。以2020年算力水平為例,使用1片 V100 GPU(在FP16精度下理論算力為28TFLOP)完成此任務,需357年。若要將訓練時間縮短至一個月,需要至少購買3000張以上V100(在效率不降的情況下,實際應更多)。
各主流模型可能採用的 GPU 卡數如下:
- GPT-4:可能需1萬到2.5萬塊A100訓練
- Falcon-40B:384個A100訓練
- Inflection:3500個H100訓練了一個等價於GPT-3.5的大模型
- LLaMA-1:2048個A100
- GPT-5:可能需3萬到5萬個H100(存疑)
GPT-3.5推理成本計算:參數規模為1750億,輸入500 token長度提示詞,輸出500 token內容,使用A100實現,算力使用效率為25%,單次推理算力需求為3.5*10^14 FLOP,成本約為0.003美元/千token。微調過的GPT-3.5-turbo售價為0.002美元/千token,基礎版的GPT-3即達芬奇3是0.02美元/千token。使用A100維護微調過的GPT-3.5可能虧損,但基礎版的GPT-3可能盈利。
在引入H100後,成本下降,估算為0.002美元/千token。OpenAI等企業擁有較大規模的GPU儲備,如Meta的2.1萬塊A100、Tesla的7000塊A100、StabilityAI的5000塊A100、GPC的2.5萬塊H100、Azure的1-4萬塊H100等。中國企業已訂購價值10億美元的A800處理器,將於今年交付,此外還購買了40億美元的GPU,將於2024年交付。
英偉達GPU的優勢主要體現在以下幾個方面:
1. 單片算力:從V100的28TFLOP到A100的312TFLOP,再到H100的1513TFLOP,支持32、64精度,減少精度損失。
2. 多晶元集群能力:GPT-3訓練至少需要350G顯存、1.3T內存,單卡無法達到,訓練時需要多卡集群,英偉達的NVLINK技術能串聯多GPU。
3. 軟體生態:支持常用深度學習框架如TensorFlow、PyTorch、Caffe等,以及各類庫、工具、驅動程序。
國產GPU方面,華為升騰、壁仞科技、摩爾線程等企業雖有進展,但距離英偉達仍有差距。升騰在精度和集群能力上有一定優勢,但生態兼容性尚待提高。壁仞科技在單卡算力上有超越,但集群互聯帶寬等仍有提升空間。摩爾線程單卡性能較差,但產品線涵蓋數據中心、桌面顯卡等,被實體清單所影響。
綜上所述,底層大模型訓練國產GPU暫時難以滿足需求,更適合微調或訓練較小規模的模型。對於超大參數規模的模型底座,國產GPU在精度和集群能力方面存在挑戰,成本相對較高。未來發展趨勢將取決於國產GPU在性能、生態兼容性以及實體清單影響下的產能調整。