A. 晶元算力和精度(int8、fp16、雙精度、單精度等等)是怎樣的
晶元算力與精度是衡量計算設備性能的關鍵指標。FP格式,包括雙精度(FP64)、單精度(FP32)、半精度(FP16)及FP8等,代表浮點運算數據格式。INT格式,如INT8、INT4等,則代表整數運算數據格式。位數越高,精度越高,所能處理的運算復雜度也越高,對應的應用場景更加廣泛。
計算性能評估不僅關注運算次數,還需考慮精度。在高性能科學計算領域,如天氣預報、化學運算、分子模型構建、天體物理模擬等,對數據精度要求極高,通常選用雙精度性能更強的GPU。AI領域,如大模型訓練、自動駕駛、智慧城市建設等,需處理大量數據、構建復雜深度學習模型,單精度算力更佳。而對於利用預訓練模型進行推理的業務,如元宇宙(虛擬數字人)、人臉識別等,則傾向於採用整型精度算力。
不同應用領域對晶元算力與精度的需求各異,合理選擇匹配的算力結構是實現高效計算的關鍵。隨著技術的不斷發展,未來晶元將更加註重算力與精度的綜合優化,以適應日益復雜多變的應用場景。
B. 英碼科技推出升騰系列AI加速卡:專為視頻解析與模型推理場景打造,更具成本競爭力!
當前,人工智慧正迅速融入各行各業,算力作為關鍵的新質生產力,其重要性日益凸顯。在全球化競爭加劇的背景下,國產算力的發展受到廣泛關注,市場需求顯著增長。華為升騰憑借其在AI領域的技術實力,成為國內AI應用落地的堅強後盾。
英碼科技作為升騰的重要合作夥伴,不僅具備基於升騰平台研發自有品牌算力產品的能力,還能根據市場需要定製差異化產品,有效推動企業數字化轉型,提高效率和競爭力。作為升騰的金牌分銷商,英碼科技享有銷售升騰系列產品的權利,並得到強大的技術支持,確保產品和服務滿足多樣化需求。英碼科技與升騰攜手,推出了多款具有競爭力的算力硬體產品,包括AI邊緣伺服器、AI邊緣計算盒子等。
英碼科技最新推出的EA300系列AI加速卡,專為視頻解析與模型推理場景設計,搭載升騰AI晶元,採用華為自研的達芬奇架構與高性能3D Cube計算引擎,實現了算力與能效的大幅提升。這些加速卡具備高性能、高能效比和高安全性的特點,為視頻處理、模型推理等需求提供強大支持。
英碼科技EA300V和EA300V Pro視頻解析卡聚焦視頻解析場景,能高效處理實時視頻流並進行深度分析,內置DVPP預處理模塊,確保視頻數據的高清晰度和流暢性。這些卡集成於伺服器中,支持AI推理、視頻和圖片的編解碼,廣泛應用於智慧城市、智慧交通、智慧園區等領域。相比業界同類產品,EA300V系列在視頻路數支持和每瓦視頻數上表現更優,成本效益顯著。
英碼科技EA300I Pro和EA300I Duo模型推理卡則具備強大的AI模型推理能力,提供高性能計算,支持復雜AI推理任務。EA300I Pro擁有140TOPS@INT8和70 TFLOPS@FP16的強大算力,支持128路1080P@30FPS視頻解碼和24路1080P@30fps視頻編碼,內存容量為24G,並支持ECC,確保高效和可靠的數據處理。EA300I Duo在Pro的基礎上進一步提升了性能,AI算力達到280TOPS@INT8和140 TFLOPS@FP16,編解碼能力增強,支持256路1080P@30FPS的視頻解碼和48路1080P@30fps的視頻編碼,內存容量提供48G和96G兩種選擇,支持多種AI模型和演算法,適用於廣泛的AI推理場景。
英碼科技EA300系列加速卡配套升騰一體化推理開發工具,提供一站式技術支持,簡化開發流程,降低門檻,助力應用快速上線。升騰軟體棧包括豐富的行業SDK、100+參考代碼樣例和高性能預訓練模型,加速模型遷移和應用部署。引入的MindX SDK為視頻圖像AI應用開發提供了強大支持,增強了解碼能力,特別是對於大算力推理模型,意味著更高的性能表現。
英碼科技提供多維度的產品定製服務,為客戶打造靈活的算力解決方案,包括符合項目需求的伺服器配置、差異化硬體設計等,並提供演算法適配、系統整合等軟體服務,確保項目從評估到實施的每個階段順利進行,實現高效、低成本落地。
綜上所述,英碼科技的EA300系列加速卡,通過強大的計算性能、國產化帶來的高性價比和高可靠性,以及一站式開發工具和差異化服務,為視頻解析和模型推理場景提供卓越的算力解決方案,助力千行百業的數字化轉型。
C. 大模型究竟要多少算力國產GPU何時能替代
大模型訓練成本和算力需求分析
大模型訓練所需算力是一個關鍵議題。訓練每參數每 token 的算力需求大致為常數,在訓練階段約為6FLOPs,推理階段為2 FLOPS。平均算力成本受 GPU 性能影響,每 FLOP 的價格平均約在2.5年降低40%-50%。算力使用效率取決於軟硬體優化水平,訓練階段效率可能低至20%,目前主流平台可達50%左右,推理階段效率則在25%左右。
舉例計算 GPT-3 訓練所需算力,其參數規模為1750億,訓練3000億 token,需要約3.15*10^23 FLOP 算力。以2020年算力水平為例,使用1片 V100 GPU(在FP16精度下理論算力為28TFLOP)完成此任務,需357年。若要將訓練時間縮短至一個月,需要至少購買3000張以上V100(在效率不降的情況下,實際應更多)。
各主流模型可能採用的 GPU 卡數如下:
- GPT-4:可能需1萬到2.5萬塊A100訓練
- Falcon-40B:384個A100訓練
- Inflection:3500個H100訓練了一個等價於GPT-3.5的大模型
- LLaMA-1:2048個A100
- GPT-5:可能需3萬到5萬個H100(存疑)
GPT-3.5推理成本計算:參數規模為1750億,輸入500 token長度提示詞,輸出500 token內容,使用A100實現,算力使用效率為25%,單次推理算力需求為3.5*10^14 FLOP,成本約為0.003美元/千token。微調過的GPT-3.5-turbo售價為0.002美元/千token,基礎版的GPT-3即達芬奇3是0.02美元/千token。使用A100維護微調過的GPT-3.5可能虧損,但基礎版的GPT-3可能盈利。
在引入H100後,成本下降,估算為0.002美元/千token。OpenAI等企業擁有較大規模的GPU儲備,如Meta的2.1萬塊A100、Tesla的7000塊A100、StabilityAI的5000塊A100、GPC的2.5萬塊H100、Azure的1-4萬塊H100等。中國企業已訂購價值10億美元的A800處理器,將於今年交付,此外還購買了40億美元的GPU,將於2024年交付。
英偉達GPU的優勢主要體現在以下幾個方面:
1. 單片算力:從V100的28TFLOP到A100的312TFLOP,再到H100的1513TFLOP,支持32、64精度,減少精度損失。
2. 多晶元集群能力:GPT-3訓練至少需要350G顯存、1.3T內存,單卡無法達到,訓練時需要多卡集群,英偉達的NVLINK技術能串聯多GPU。
3. 軟體生態:支持常用深度學習框架如TensorFlow、PyTorch、Caffe等,以及各類庫、工具、驅動程序。
國產GPU方面,華為升騰、壁仞科技、摩爾線程等企業雖有進展,但距離英偉達仍有差距。升騰在精度和集群能力上有一定優勢,但生態兼容性尚待提高。壁仞科技在單卡算力上有超越,但集群互聯帶寬等仍有提升空間。摩爾線程單卡性能較差,但產品線涵蓋數據中心、桌面顯卡等,被實體清單所影響。
綜上所述,底層大模型訓練國產GPU暫時難以滿足需求,更適合微調或訓練較小規模的模型。對於超大參數規模的模型底座,國產GPU在精度和集群能力方面存在挑戰,成本相對較高。未來發展趨勢將取決於國產GPU在性能、生態兼容性以及實體清單影響下的產能調整。
D. 深圳之後「第二城」:華為布局西安,劍指「每秒百億億次」
1. 華為參與建設的西安人工智慧計算中心,其規劃算力可與深圳「鵬城雲腦」相媲美。
2. 隨著科技的發展,「人工智慧」已成為國家發展戰略的重要部分,西安被譽為「國家新一代人工智慧創新發展試驗區」。
3. 該計算中心的建立,旨在推動國家戰略任務的實施和促進經濟與產業的發展。
4. 計算中心分兩期建設,一期算力達到300PFLOPS FP16,二期將建設產業研發中心,目標在2025年實現1000PFLOPS FP16的算力。
5. 人工智慧的「算力」是衡量其性能的關鍵指標。以「鵬城雲腦II」為例,其AI算力達到每秒百億億次,在全球范圍內幾乎是最強大的超級計算能力。
6. 西安的人工智慧計算中心將服務於自動駕駛、智慧醫療、智慧城市等多個領域,其目標是在2025年達到與深圳「鵬城雲腦II」相當的算力水平。
7. 華為表示,將助力西安打造人工智慧「一中心四平台」的整體框架,通過集約化、統一化的計算中心,推動產業集群的數字化與智能化發展。
8. 在人工智慧領域,西安已有超算中心等基礎設施,計算能量巨大。以「鵬城雲腦II」為例,其在全球超級計算領域具有重要地位。
9. 西安作為科研和創新重鎮,擁有強大的學術資源、科研實力和創新基礎。隨著經濟實力的增強和產業結構的變化,省市正積極推動西安建設「國家綜合性科學中心」。
10. 西安的人工智慧產業發展迅速,截至2020年,已有150餘家相關企業,年產值約120億。規劃到2022年,產業規模將超過200億,相關產業規模突破1000億。
11. 西安在2021年的全球AI創新力城市榜單中名列前茅,華為參與建設的計算中心將進一步推動制度、政策創新,加快形成國家新一代人工智慧試驗區的西安方案。
12. 西安的人工智慧計算中心不僅是對深圳「鵬城雲腦」經驗的借鑒,更可能實現制度創新,對經濟社會發展產生深遠影響,形成國家新一代人工智慧試驗區的新方案。
E. 英偉達H20 AI GPU參數曝光:完全符合美國出口管制
英偉達原計劃於2023年推出三款GPU產品,用於人工智慧計算,分別為HGX H20、L20、L2。然而,由於美國商務部於同年10月更新的高性能晶元出口管制措施,使得英偉達的發布計劃受到影響。據此前透露的參數,HGX H20與H100、H200同屬系列,採用英偉達Hopper架構,顯存容量高達96GB HBM3,GPU顯存帶寬為4.0TB/s。其FP8算力為296 TFLOPS,FP16算力為148 TFLOPS,算力僅為H200的1/13。HGX H20具備NVLink 900GB/s高速互聯功能,採用SXM板卡形態,兼容8路HGX伺服器規格,方便集群AI大模型訓練。從參數上看,其性能密度和算力符合美國出口管制規定。
另外兩款GPU產品L20、L2採用PCIe 4.0 x16板卡形態,搭載48GB和24GB GDDR6顯存。算力相對H20較低。
面對美國對華出口管制措施,英偉達採取了一系列應對措施。在中國市場,英偉達下架了RTX 4090游戲顯卡,隨後推出縮水版RTX 4090 D,專門為國內市場設計,CUDA核心數從16384個減少至14592個,性能大約下降10%。
分析師郭明錤在2023年12月28日發布文章稱,英偉達H20 AI GPU晶元預計於2024年第二季度開始量產,緯創將作為基板的獨家供應商。
F. 算力晶元誰能替代英偉達的
沐曦公司近期宣布,其自主開發的國產 GPU 產品線中,最新的曦雲 MXC500 GPU 僅耗時 5 小時便完成了點亮,這一過程標志著晶元功能測試的成功。沐曦的 GPU 產品陣列包括針對 AI 推理的 MXN 系列、AI 訓練和通用計算的 MXC 系列,以及圖形渲染的 MXG 系列。作為該公司產品家族的新成員,MXC500 被視為能夠與英偉達 A100 和 A800 算力晶元相媲美的產品,其 FP32 算力目標值達到了 15 TFLOPS,而 A100 的該性能指標為 19.5 TFLOPS。MXC500 基於通用 GPU 架構,並且支持 CUDA 兼容性,預計將在年底開始大規模發貨。
此外,沐曦的首款人工智慧推理 GPU 產品,曦思 N100,已經進入量產階段。該產品集成了 MXN100 異構 GPGPU 處理器和 HBM2E 顯存,其單卡 INT8 算力最高可達 160TOPS,FP16 算力最高為 80TFLOPS。它還支持高達 128 路視頻編碼和 96 路視頻解碼,能夠處理包括 HEVC、H.264、AV1、AVS2 在內的多種視頻格式,並且最高支持 8K 解析度視頻。
據沐曦聯合創始人楊建透露,公司的產品開發路線圖顯示,到 2025 年,沐曦計劃推出整合了圖形渲染功能的完整 GPU 產品線,以滿足顯示和游戲等應用場景的需求。
G. 2023騫存渶鏂版渶鍏ㄧ殑鏄懼崱娣卞害瀛︿範AI綆楁硶綆楀姏鎺掕岋紙鍖呮嫭鍗曠簿搴FP32鍜屽崐綺懼害FP16鐨勫規瘮錛
鍦ㄦ繁搴﹀︿範鐨勪笘鐣岄噷錛屾樉鍗℃ц兘鏃犵枒鏄鍐沖畾璁$畻鏁堢巼鐨勫叧閿鍥犵礌銆傛湰鏂囧皢涓烘偍鎻紺2023騫存渶鏂版渶鍏ㄩ潰鐨勬樉鍗$畻鍔涙帓琛岋紝鍖呮嫭鍗曠簿搴FP32涓庡崐綺懼害FP16鐨勬縺鐑堣緝閲忥紝浠ュ強鎬т環姣旂殑娣卞害媧炲療銆
涓撲笟鏄懼崱涓瑙
鏁版嵁鏉ヨ嚜鏉冨▉鏉ユ簮NVIDIA Professional Graphics Solutions | Linecard錛岃╂垜浠鑱氱劍浜庡湴琛ㄦ渶寮虹殑鏄懼崱鈥斺擧100銆侶100鐨凷XM鐗堟湰鍦ㄥ崐綺懼害涓嬪睍鐜板嚭鎯婁漢瀹炲姏錛岄珮杈捐繎2000TFLOPS錛岃繖鏃犵枒璁4090鐨165.2TFLOPS鐩稿艦瑙佺粚錛佽屼笖錛屼環鏍煎規瘮鍚屾牱鎯婁漢錛欻100 SXM鐗堟湰鍞浠24涓囦笉鍚紼庯紝鑰4090浠呴渶1.2涓囷紒
鍏充簬鍏朵粬鍙傛暟鐨勬帓琛岋紝鎴戜滑涓嶄粎鏈夌壒鏂鎷堿100涓嶸100鐨勫熀鍑嗘祴璇曪紝榪樻瀯寤轟簡閫傚悎鐨勬暟鎹妯″瀷錛岄拡瀵筎itan V銆乀itan RTX銆丷TX 2080 Ti鍜孯TX 2080榪涜屼簡鍥涚粍瀵規瘮嫻嬭瘯銆備腑闂寸駭鍒鐨勫崱鐗囧俁TX 2070銆2060鍙奞uadro RTX 6000/8000錛屾垜浠閫氳繃鎻掑煎勭悊錛岀『淇濇暟鎹鐐逛箣闂寸殑榪炵畫鎬с
鍦ㄩ夋嫨鏃訛紝鎴戜滑鐗瑰埆鍏蟲敞FP16璁緇冪殑鎬ц兘錛屽洜涓洪氬父璁や負瀹冨湪鏁堢巼涓婁紭浜嶧P32銆傛т環姣旀槸姣忎釜棰勭畻鍐崇瓥鑰呭叧娉ㄧ殑閲嶇偣錛屾瘡緹庡厓鎵鑳借幏寰楃殑綆楀姏錛屾槸琛¢噺浠峰肩殑鍏抽敭鎸囨爣銆
鎬т環姣斿垎鏋
浠RTX 3080涓哄熀鍑嗭紝鎴戜滑娣卞叆鍓栨瀽浜嗕竴緹庡厓鑳藉甫鏉ョ殑鎬ц兘鎻愬崌銆傛棤璁烘槸鍗曞崱1-2涓狦PU錛岃繕鏄鎵╁睍鍒4涓鎴8涓狦PU緋葷粺錛屾垜浠閮界粰鍑轟簡璇︾粏鐨勬т環姣旀帓琛屻傚湪鑰冭檻鍐呭瓨闇奼傛椂錛屼笉鍚屽簲鐢ㄩ嗗煙濡傞勮緇僒ransformer銆佸ぇ鍨嬬綉緇滆緇冦佽嗛戝勭悊絳夛紝閮芥湁鐩稿簲鐨勫唴瀛樺熀鍑嗘寚鍗椼
姝ゅ栵紝鎴戜滑榪樼簿閫変簡鍏充簬A100銆丄800銆丠100銆丠800絳変笉鍚岀増鏈鐨勫尯鍒瑙h伙紝浠ュ強鏈哄櫒瀛︿範銆佹繁搴﹀︿範涓庡己鍖栧︿範鐨勫叧鑱斿拰鍖哄埆錛屽府鍔╂偍鍏ㄩ潰鐞嗚В鎶鏈鑳屽悗鐨勯昏緫銆
瀵逛簬紜浠墮夋嫨鐨勫洶鎯戱紝鏄璐涔扮‖浠舵湇鍔″櫒榪樻槸縐熺敤浜戞湇鍔★紵榪欓噷涔熺粰鍑轟簡娣卞叆鐨勬瘮杈冨拰寤鴻銆傚悓鏃訛紝娣卞害瀛︿範鐨勫叏闈㈠︿範璧勬簮鎺ㄨ崘錛屼互鍙婃湇鍔″櫒閰嶇疆鍙傝冿紝璁╂偍鍦ㄥ︿範鍜屽疄璺典腑娓稿垉鏈変綑銆
鏈鍚庯紝鎴戜滑鐨勪笓涓氬洟闃熼暱鏈熻嚧鍔涗簬縐戝﹁$畻鏈嶅姟鍣ㄧ殑鐮斿彂錛屽弬涓庢斂閲囧鉤鍙幫紝鎻愪緵H100絳夐《綰ф樉鍗$殑閫夋嫨錛屼互鍙婇珮鎬ц兘鏈嶅姟鍣ㄧ殑瀹氬埗鍖栨柟妗堛