『壹』 8192cuda 性能強悍 NV公布7nm安培A100gpu 還想彎道超車
如約而至,NVIDIA 昨天以線上發布錄制視頻的方式帶來了 GTC 2020 主題演講,這次,沒有舞台、沒有大屏幕背景,此次的重點就是介紹 NVIDIA 基於全新安培架構,面向 HPC 領域的 A100 GPU,適用於科學計算、數據分析、雲圖形等高性能計算。
基於 AMPERE (安培) 架構的 A100 GPU 採用台積電 7nm 工藝打造,核心面積 826m㎡,晶體管數量高達恐怖的 542 億,是 Volta GV100 GPU 的 2.5 倍還多,後者採用的是台積電 12nm 工藝,面積為 815m㎡,晶體管數量為 211 億,由此可見台積電 7nm 工藝的提升之大。
完整的 AMPERE A100 GPU 擁有 128 組SM,每組 64 個 CUDA FP32 核心、32 個 FP64 CUDA 核心、4 個第三代 Tensor 核心、12x 512-bit 顯存介面、支持 6 個 HBM 顯存堆棧,由於並非為 游戲 領域設計,所以 A100 GPU 沒有 RT 核心。
完整的 A100 共計有 8192 個 FP32 CUDA 核心,4096 個 FP64 CUDA 核心 、512 個 Tensor 核心、6144-bit 顯存位寬、最高可支持 48GB HBM 顯存,另外 AMPERE A100 GPU 將支持 PCIe 4.0 連接。
不過,新一代 Tesla A100 計算卡沒有用上完整的 128 組 SM,只有啟用了 108 組,共計 6912 個 CUDA 核心,432 個 Tensor 核心,配備 40GB 顯存,顯存位寬也縮減為 5120-bit,即便如此,該卡的 TDP 也高達400W,名副其實的電老虎。
強大的規模使得 A100 成為 NVIDIA 目前最快的 GPU,其中第三代 Tensor 內核提供了一種新的混合 FP32 格式,稱為 TF32(Tensor Float 32) 對於使用 TF32 的工作負載,A100 可以在單個晶元中提供 312 TFLOPS 的算力,比 V100 的 15.7 TFLOPS 的 FP32 性能快 20 倍,但這並不是一個完全公平的比較,因為 TF32 與 FP32 並不完全相同。
相比上一代,NVIDIA Ampere架構的A100將性能提升了20倍。A100的五大關鍵特性包括:
以上這些特性促成了A100性能的提升:與NVIDIA上一代的Volta架構相比,訓練性能提高了6倍,推理性能提高了7倍。
此外 NVIDIA 還推出了基於 AMPERE A100 打造的 DGX A100 系統,內置 8 塊基於 A100 GPU 的 Tesla A100 計算卡,總顯存容量高達 320GB (每卡40GB),可提供 5 Petaflops 的 AI 性能,以及 10 Petaops 的 INT8 性能。
這次,NVIDIA 選擇了與 AMD 合作,在 DGX A100 系統上使用了 AMD EPYC 7742 處理器,該處理器具備高達 64 核心 128 線程,基礎頻率 2.25GHz,加速頻率 3.4GHz,每個 DGX A100 使用兩個,共計 128 核心和 256 線程,另外該系統還具備高達 1TB DDR4 內存,15TB 的 U.2 NVMe SSD 以及 2 個 1.92TB 的 M.2 NVMe SSD,8 個 Mellanox HDR(Infiniband) 額定 200Gb/s 的網路埠。
NVIDIA DGX-A100 系統現已開始供貨,起價為 199,000 美元。
『貳』 1萬個A100的算力是多少
NVIDIA A100是一種高性能計算加速器,它的算力可以通過浮點運算每秒測量來衡量。具體而言,A100在FP32精度下的猜螞算力為19.5 TFLOPS(萬億次浮點運算每秒),在FP64精度下的算力為9.7 TFLOPS。
因此,1萬個A100的穗孫埋算力在FP32精度下為:
19.5 TFLOPS × 10,000 = 195 PFLOPS(千萬億次浮點運算每秒)
在FP64精度下的算力為:
9.7 TFLOPS × 10,000 = 97 PFLOPS(千萬億次浮點運算每秒)
需要注意凱搭的是,這只是理論上的峰值算力,實際應用中的性能可能會受到多種因素的影響,例如演算法的復雜度、數據傳輸瓶頸等。
『叄』 A100顯卡是什麼有了解的嗎
A100 系列是計算加速顯卡,該系列產品為數據中心的高性能計算機推出,用於人工智慧、科學、產業等運算。該系列產品 GPU 晶元代號為 GA100,核心面積 826 平方毫米,具有 540 億個晶體管,新品最高搭載 80GB 顯存,使用 HBM2e 高速顯存晶元。
『肆』 英偉達秀全球最大GPU,黃仁勛從烤箱里拿出的產品果然「爆了」
SegmentFault 思否報道丨公眾號:SegmentFault
是他,還是那個男人,那個熟悉的皮夾克。
5 月 14 日 晚,黃仁勛在廚房召開了英偉達 GTC 2020 線上發布會。由於新冠病毒疫情影響,英偉達原計劃的現場活動被迫取消,定於 3 月 24 日通過媒體發布的新聞稿也未見蹤影。千呼萬喚中,黃仁勛終於在烤箱前和大家見面了。
本屆 GTC 從預熱開始就不走尋常路,黃仁勛在大會前一天曬出了自己從烤箱里拿出了 全新的安培(Ampere)架構 GPU NVIDIA A100 。
令人頗感意外的是,雖然無法舉辦線下活動,英偉達竟然連線上直播都懶得辦,直接播放了黃仁勛在自家廚房裡錄制的視頻完成了新品發布。果然是手裡有「硬貨」就不在乎形式了。
英偉達的首款安培架構 GPU 可以算「史上最強」了,基於 7nm 工藝製程,擁有 540 億晶體管,面積為826mm²,與 Volta 架構相比性能提升了 20 倍 ,既可以做訓練也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代碼的情況下將 FP32 精度下的 AI 性能提高 20倍,達到19.5萬億次/秒 。
多實例 GPU-MG 可將單個 A100 GPU 分割為 7 個獨立的 GPU,根據任務不同提供不同的計算力,實現最佳利用率和投資回報率的最大化。
NVIDIA A100 新的效率技術利用了AI數學固有的稀疏性,優化之後性能提升了一倍。
英偉達將 NVIDIA A100 的特性總結為以下 5 點:
黃仁勛說:「Ampere架構的突破性設計為英偉達第八代GPU提供了迄今為止最大的性能飛躍, 集 AI 訓練和推理於一身,並且其性能相比於前代產品提升了高達 20 倍 。這是有史以來首次,可以在一個平台上實現對橫向擴展以及縱向擴展的負載的加速。A100 將在提高吞吐量的同時,降低數據中心的成本。」
NVIDIA A100 是第一個基於 NVIDIA 安培架構的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它還可用於數據分析,科學計算和雲圖形,並已全面投產並交付給全球客戶。
全球 18 家領先的服務提供商和系統構建商正在將 NVIDIA A100 整合到他們的服務和產品中,其中包括阿里雲、AWS、網路雲、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黃仁勛還介紹了基於 NVIDIA A100 的第三代 AI 系統 DGX-A100 AI。DGX-A100 AI 是世界上第一台單節點 AI 算力達到 5 PFLOPS 的伺服器 ,每台 DGX A100 可以分割為多達 56 個獨立運行的實例,還集合了 8 個 NVIDIA A100 GPU,每個 GPU 均支持 12 路 NVLink 互連匯流排。
據了解,與其他高端 CPU 伺服器相比,DGXA100 的 AI 計算性能高 150 倍、內存帶寬高 40 倍、IO 帶寬高 40 倍。
黃仁勛說:「AI已經被應用到雲計算、 汽車 、零售、醫療等眾多領域,AI演算法也正變得越來越復雜和多樣。ResNet模型的算力需求從2016年到現在已經增加了3000倍,我們需要更好的解決方案。」
如此強大的 DGX-A100 AI 售價自然也不便宜,標價 19.9 萬美元,約合人民幣 141 萬元。
此外,黃仁勛還提到了英偉達新一代 DGXSuper POD 集群,由 140 台DGXA100系統組成,AI算力達 700 Petaflops,相當於數千台伺服器的性能 。
據了解,首批 DGXSuper POD 將部署在美國能源部阿貢國家實驗室,用於新冠病毒疫情相關的研究。
除了以上兩款重磅產品,黃仁勛還宣布推出了 NVIDIA Merlin,這是一個用於構建下一代推薦系統的端到端框架,該系統正迅速成為更加個性化互聯網的引擎。Merlin將創建一個 100 TB 數據集推薦系統所需的時間從四天減少到 20 分鍾。
英偉達此次還推出了眾多 AI 領域相關產品,包括 乙太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 邊緣 AI 平台和一系列軟體更新擴展。
1.乙太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是業界首個為 25Gb/s 優化的安全智能網卡,可提供兩個 25Gb/s 埠或一個 50Gb/s 埠。
2.EGX 邊緣 AI 平台
EGX Edge AI 平台是首款基於 NVIDIA 安培架構的邊緣 AI 產品,可接收高達 200Gbps 的數據,並將其直接發送到 GPU 內存進行 AI 或 5G 信號處理。
3.Spark 3.0
英偉達還宣布在 Spark 3.0 上支持 NVIDIA GPU 加速,基於 RAPIDS 的 Spark 3.0,打破了提取,轉換和載入數據的性能基準。它已經幫助 Adobe Intelligent Services 將計算成本降低了90%。
4.NVIDIA Jarvis
黃仁勛在發布會中詳細介紹了 NVIDIA Jarvis,這是一個新的端到端平台,可以充分發揮英偉達 AI 平台的強大功能,創建實時多模態對話式 AI。
5.Misty 交互 AI
現場演示中,一個名為 Misty 的 AI系統展示了實時理解並回答一系列有關天氣的復雜問題的交互過程。
自動駕駛方面,英偉達也將安培架構嵌入了新的 NVIDIA DRIVE 平台。據了解,小馬智行、法拉第未來等自動駕駛企業已宣布採用 NVIDIA DRIVE AGX 計算平台。
英偉達的 NVIDIA Isaac 軟體定義的機器人平台還將用於寶馬集團工廠。英偉達機器人技術全球生態系統涵蓋配送、零售、自主移動機器人、農業、服務業、物流、製造和醫療保健各個行業。
英偉達這場時隔 3 年的發布會可謂誠意滿滿,首次推出的安培架構給足了驚喜,性能提升 20 倍的 NVIDIA A100 GPU 可謂性能飛躍。
雖然發布會並不是現場直播,但依舊爆點十足。一台就比千台強的 DGX-A100 AI 也印證了黃仁勛那就經典名言「買的越多,賺的越多」。英偉達的 AI 解決方案已經覆蓋了各行各業,強大的 AI 生態正在形成。
中國工程院院士倪光南曾表示:「晶元設計門檻極高,只有極少數企業能夠承受中高端晶元研發成本,這也制約了晶元領域創新。」
英偉達在本屆 GTC 上推出的安培架構和基於此的一系列 AI 平台無一部顯示了一個 AI 晶元巨頭的實力,又一次樹立了性能標桿。
根據 Gartner 的預測數據 ,未來 5 年內全球人工智慧晶元市場規模將呈飆升趨勢 ,自 2018 年的 42.7 億美元 ,升高至 343 億美元 ,增長已超過 7 倍,可見 AI 晶元市場有較大增長空間。
盡管與西方發達國家相比,中國的 AI 晶元研發還存在一定差距,但過去兩年中,中國 AI 晶元初創企業已獲得了數億美元的資金。華為等公司也開發了令人印象深刻的晶元設計。
但晶元開發極具復雜性,中國人才的短缺以及缺乏多家全球銷售排名前 15 位的中國半導體公司的情況表明,中國仍需要取得重大進展,才能在半導體領域與美國匹敵。