A. 英偉達發布史上最強計算平台,黃教主:自動駕駛不再擔心算力問題
原本應該在今年 3 月份於加州聖何塞舉辦的英偉達 GTC 2020 大會,因為全球性新冠病毒肺炎的爆發而不得不推遲舉行。
比原計劃晚了將近 2 個月,英偉達 GTC 2020 終於在 5 月 14 日回歸。
不過這一次開發者們沒辦法在線下集會,只能通過線上直播觀看「皮衣教主」黃仁勛的主題演講。老黃此次是在他矽谷的家中完成了這場別開生面的「Kitchen Keynote」。
雖然是廚房舉行,英偉達依然爆出「核彈」,發布了全新一代的 GPU 架構 Ampere(安培)。
在自動駕駛方向上,英偉達通過兩塊 Orin SoC 和兩塊基於安培架構的 GPU 組合,實現了前所未有的?2000 TOPS?算力的 Robotaxi 計算平台,整體功耗為?800W。
有業界觀點認為,實現 L2 自動駕駛需要的計算力小於 10 TOPS,L3 需要的計算力為 30 - 60 TOPS,L4 需要的計算力大於 100 TOPS,L5 需要的計算力至少為 1000 TOPS。
現在的英偉達自動駕駛計算平台已經建立起了從?10TOPS/5W,200TOPS/45W?到?2000 TOPS/800W?的完整產品線,分別對應前視模塊、L2+ADAS?以及?Robotaxi?的各級應用。
從產品線看,英偉達?Drive AGX?將全面對標 Mobileye?EyeQ?系列,希望成為量產供應鏈中的關鍵廠商。
1、全新 GPU 架構:Ampere(安培)
2 個月的等待是值得的,本次 GTC 上,黃仁勛重磅發布了英偉達全新一代 GPU 架構 Ampere(安培)以及基於這一架構的首款 GPU NVIDIA A100。
A100 在整體性能上相比於前代基於 Volta 架構的產品有 20 倍的提升,這顆 GPU 將主要用於數據分析、專業計算以及圖形處理。
在安培架構之前,英偉達已經研發了多代 GPU 架構,它們都是以科學發展史上的偉人來命名的。
比如 Tesla(特斯拉)、Fermi(費米)、Kepler(開普勒)、Maxwell(麥克斯維爾)、Pascal(帕斯卡)、Volta(伏特)以及 Turing(圖靈)。
這些核心架構的升級正是推動英偉達各類 GPU 產品整體性能提升的關鍵。
針對基於安培架構的首款 GPU A100,黃仁勛細數了它的五大核心特點:
集成了超過 540 億個晶體管,是全球規模最大的 7nm 處理器;引入第三代張量運算指令 Tensor Core 核心,這一代 Tensor Core 更加靈活、速度更快,同時更易於使用;採用了結構化稀疏加速技術,性能得以大幅提升;支持單一 A100 GPU 被分割為多達 7 塊獨立的 GPU,而且每一塊 GPU 都有自己的資源,為不同規模的工作提供不同的計算力;集成了第三代 NVLink 技術,使 GPU 之間高速連接速度翻倍,多顆 A100 可組成一個巨型 GPU,性能可擴展。
這些優勢累加起來,最終讓 A100 相較於前代基於 Volta 架構的 GPU 在訓練性能上提升了?6 倍,在推理性能上提升了?7 倍。
最重要的是,A100 現在就可以向用戶供貨,採用的是台積電的 7nm 工藝製程生產。
阿里雲、網路雲、騰訊雲這些國內企業正在計劃提供基於 A100 GPU 的服務。
2、Orin+安培架構 GPU:實現 2000TOPS 算力
隨著英偉達全新 GPU 架構安培的推出,英偉達的自動駕駛平台(NVIDIA Drive)也迎來了一次性能的飛躍。
大家知道,英偉達此前已經推出了多代 Drive AGX 自動駕駛平台以及 SoC,包括?Drive AGX Xavier、Drive AGX Pegasus?以及?Drive AGX Orin。
其中,Drive AGX Xavier 平台包含了兩顆 Xavier SoC,算力可以達到 30TOPS,功耗為 30W。
最近上市的小鵬 P7 上就量產搭載了這一計算平台,用於實現一系列 L2 級自動輔助駕駛功能。
Drive AGX Pegasus 平台則包括了兩顆 Xavier SoC 和兩顆基於圖靈架構的 GPU,算力能做到 320TOPS,功耗為 500W。
目前有文遠知行這樣的自動駕駛公司在使用這一計算平台。
在 2019 年 12 月的 GTC 中國大會上,英偉達又發布了最新一代的自動駕駛計算 SoC Orin。
這顆晶元由 170 億個晶體管組成,集成了英偉達新一代 GPU 架構和 Arm Hercules CPU 內核以及全新深度學習和計算機視覺加速器,最高每秒可運行 200 萬億次計算。
相較於上一代 Xavier 的性能,提升了 7 倍。
如今,英偉達進一步將自動駕駛計算平台的算力往前推進,通過將兩顆 Orin SoC 和兩塊基於安培架構的 GPU 集成起來,達到驚人的 2000TOPS 算力。
相較於 Drive AGX Pegasus 的性能又提升了 6 倍多,相應地,其功耗為 800W。
按一顆 Orin SoC 200TOPS 算力來計算,一塊基於安培架構的 GPU 的算力達到了 800TOPS。
正因為高算力,這個平台能夠處理全自動駕駛計程車運行所需的更高解析度感測器輸入和更先進的自動駕駛深度神經網路。
對於高階自動駕駛技術的發展而言,英偉達正在依靠 Orin SoC 和安培 GPU 架構在計算平台方面引領整個行業。
當然,作為一個軟體定義的平台,英偉達 Drive AGX 具備很好的可擴展性。
特別是隨著安培 GPU 架構的推出,該平台已經可以實現從入門級 ADAS 解決方案到 L5 級自動駕駛計程車系統的全方位覆蓋。
比如英偉達的 Orin 處理器系列中,有一款低成本的產品可以提供 10TOPS 的算力,功耗僅為 5W,可用作車輛前視 ADAS 的計算平台。
換句話說,採用英偉達 Drive AGX 平台的開發者在單一平台上僅基於一種架構便能開發出適應不同細分市場的自動駕駛系統,省去了單獨開發多個子系統(ADAS、L2+ 等系統)的高昂成本。
不過,想採用 Orin 處理器的廠商還得等一段時間,因為這款晶元會從 2021 年開始提供樣品,到?2022 年下半年才會投入生產並開始供貨。
3、英偉達自動駕駛「朋友圈」再擴大
本屆 GTC 上,英偉達的自動駕駛「朋友圈」繼續擴大。
中國自動駕駛公司小馬智行(Pony.ai)、美國電動車創業公司?Canoo?和法拉第未來(Faraday Future)加入到英偉達的自動駕駛生態圈,將採用英偉達的 Drive AGX 計算平台以及相應的配套軟體。
小馬智行將會基於 Drive AGX Pegasus 計算平台打造全新一代 Robotaxi 車型。
此前,小馬智行已經拿到了豐田的 4 億美金投資,不知道其全新一代 Robotaxi 會不會基於豐田旗下車型打造。
美國的電動汽車初創公司 Canoo 推出了一款專門用於共享出行服務的電動迷你巴士,計劃在 2021 年下半年投入生產。
為了實現輔助駕駛的系列功能,這款車型會搭載英偉達 Drive AGX Xavier 計算平台。前不久,Canoo 還和現代汽車達成合作,要攜手開發電動汽車平台。
作為全球新造車圈內比較特殊存在的法拉第未來,這一次也加入到了英偉達的自動駕駛生態圈。
FF 首款量產車 FF91 上的自動駕駛系統將基於 Drive AGX Xavier 計算平台打造,全車搭載了多達 36 顆各類感測器。
法拉第未來官方稱 FF91 有望在今年年底開始交付,不知道屆時會不會再一次跳票。
作為 GPU 領域絕對霸主的英偉達,在高算力的數據中心 GPU 以及高性能、可擴展的自動駕駛計算平台的加持下,已經建起了一個完整的集數據收集、模型訓練、模擬測試、遠程式控制制和實車應用的軟體定義的自動駕駛平台,實現了端到端的完整閉環。
同時,其自動駕駛生態圈也在不斷擴大,包括汽車製造商、一級供應商、感測器供應商、Robotaxi 研發公司和軟體初創公司在內的數百家自動駕駛產業鏈上的企業已經在基於英偉達的計算硬體和配套軟體開發、測試和應用自動駕駛車輛。
未來,在整個自動駕駛產業里,以計算晶元為核心優勢,英偉達的觸角將更加深入,有機會成為產業鏈條上不可或缺的供應商。
本文來源於汽車之家車家號作者,不代表汽車之家的觀點立場。
B. 英偉達秀全球最大GPU,黃仁勛從烤箱里拿出的產品果然「爆了」
SegmentFault 思否報道丨公眾號:SegmentFault
是他,還是那個男人,那個熟悉的皮夾克。
5 月 14 日 晚,黃仁勛在廚房召開了英偉達 GTC 2020 線上發布會。由於新冠病毒疫情影響,英偉達原計劃的現場活動被迫取消,定於 3 月 24 日通過媒體發布的新聞稿也未見蹤影。千呼萬喚中,黃仁勛終於在烤箱前和大家見面了。
本屆 GTC 從預熱開始就不走尋常路,黃仁勛在大會前一天曬出了自己從烤箱里拿出了 全新的安培(Ampere)架構 GPU NVIDIA A100 。
令人頗感意外的是,雖然無法舉辦線下活動,英偉達竟然連線上直播都懶得辦,直接播放了黃仁勛在自家廚房裡錄制的視頻完成了新品發布。果然是手裡有「硬貨」就不在乎形式了。
英偉達的首款安培架構 GPU 可以算「史上最強」了,基於 7nm 工藝製程,擁有 540 億晶體管,面積為826mm²,與 Volta 架構相比性能提升了 20 倍 ,既可以做訓練也可以做推理。
NVIDIA A100 具有 TF32的第三代 Tensor Core 核心,能在不更改任何代碼的情況下將 FP32 精度下的 AI 性能提高 20倍,達到19.5萬億次/秒 。
多實例 GPU-MG 可將單個 A100 GPU 分割為 7 個獨立的 GPU,根據任務不同提供不同的計算力,實現最佳利用率和投資回報率的最大化。
NVIDIA A100 新的效率技術利用了AI數學固有的稀疏性,優化之後性能提升了一倍。
英偉達將 NVIDIA A100 的特性總結為以下 5 點:
黃仁勛說:「Ampere架構的突破性設計為英偉達第八代GPU提供了迄今為止最大的性能飛躍, 集 AI 訓練和推理於一身,並且其性能相比於前代產品提升了高達 20 倍 。這是有史以來首次,可以在一個平台上實現對橫向擴展以及縱向擴展的負載的加速。A100 將在提高吞吐量的同時,降低數據中心的成本。」
NVIDIA A100 是第一個基於 NVIDIA 安培架構的 GPU,提供了在 NVIDIA 八代 GPU 里最大的性能提升,它還可用於數據分析,科學計算和雲圖形,並已全面投產並交付給全球客戶。
全球 18 家領先的服務提供商和系統構建商正在將 NVIDIA A100 整合到他們的服務和產品中,其中包括阿里雲、AWS、網路雲、思科、Dell Technologies、Google Cloud、HPE、Microsoft Azure和甲骨文。
黃仁勛還介紹了基於 NVIDIA A100 的第三代 AI 系統 DGX-A100 AI。DGX-A100 AI 是世界上第一台單節點 AI 算力達到 5 PFLOPS 的伺服器 ,每台 DGX A100 可以分割為多達 56 個獨立運行的實例,還集合了 8 個 NVIDIA A100 GPU,每個 GPU 均支持 12 路 NVLink 互連匯流排。
據了解,與其他高端 CPU 伺服器相比,DGXA100 的 AI 計算性能高 150 倍、內存帶寬高 40 倍、IO 帶寬高 40 倍。
黃仁勛說:「AI已經被應用到雲計算、 汽車 、零售、醫療等眾多領域,AI演算法也正變得越來越復雜和多樣。ResNet模型的算力需求從2016年到現在已經增加了3000倍,我們需要更好的解決方案。」
如此強大的 DGX-A100 AI 售價自然也不便宜,標價 19.9 萬美元,約合人民幣 141 萬元。
此外,黃仁勛還提到了英偉達新一代 DGXSuper POD 集群,由 140 台DGXA100系統組成,AI算力達 700 Petaflops,相當於數千台伺服器的性能 。
據了解,首批 DGXSuper POD 將部署在美國能源部阿貢國家實驗室,用於新冠病毒疫情相關的研究。
除了以上兩款重磅產品,黃仁勛還宣布推出了 NVIDIA Merlin,這是一個用於構建下一代推薦系統的端到端框架,該系統正迅速成為更加個性化互聯網的引擎。Merlin將創建一個 100 TB 數據集推薦系統所需的時間從四天減少到 20 分鍾。
英偉達此次還推出了眾多 AI 領域相關產品,包括 乙太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC、EGX 邊緣 AI 平台和一系列軟體更新擴展。
1.乙太網智能網卡 Mellanox ConnectX-6 Lx SmartNIC
ConnectX-6 Lx 是業界首個為 25Gb/s 優化的安全智能網卡,可提供兩個 25Gb/s 埠或一個 50Gb/s 埠。
2.EGX 邊緣 AI 平台
EGX Edge AI 平台是首款基於 NVIDIA 安培架構的邊緣 AI 產品,可接收高達 200Gbps 的數據,並將其直接發送到 GPU 內存進行 AI 或 5G 信號處理。
3.Spark 3.0
英偉達還宣布在 Spark 3.0 上支持 NVIDIA GPU 加速,基於 RAPIDS 的 Spark 3.0,打破了提取,轉換和載入數據的性能基準。它已經幫助 Adobe Intelligent Services 將計算成本降低了90%。
4.NVIDIA Jarvis
黃仁勛在發布會中詳細介紹了 NVIDIA Jarvis,這是一個新的端到端平台,可以充分發揮英偉達 AI 平台的強大功能,創建實時多模態對話式 AI。
5.Misty 交互 AI
現場演示中,一個名為 Misty 的 AI系統展示了實時理解並回答一系列有關天氣的復雜問題的交互過程。
自動駕駛方面,英偉達也將安培架構嵌入了新的 NVIDIA DRIVE 平台。據了解,小馬智行、法拉第未來等自動駕駛企業已宣布採用 NVIDIA DRIVE AGX 計算平台。
英偉達的 NVIDIA Isaac 軟體定義的機器人平台還將用於寶馬集團工廠。英偉達機器人技術全球生態系統涵蓋配送、零售、自主移動機器人、農業、服務業、物流、製造和醫療保健各個行業。
英偉達這場時隔 3 年的發布會可謂誠意滿滿,首次推出的安培架構給足了驚喜,性能提升 20 倍的 NVIDIA A100 GPU 可謂性能飛躍。
雖然發布會並不是現場直播,但依舊爆點十足。一台就比千台強的 DGX-A100 AI 也印證了黃仁勛那就經典名言「買的越多,賺的越多」。英偉達的 AI 解決方案已經覆蓋了各行各業,強大的 AI 生態正在形成。
中國工程院院士倪光南曾表示:「晶元設計門檻極高,只有極少數企業能夠承受中高端晶元研發成本,這也制約了晶元領域創新。」
英偉達在本屆 GTC 上推出的安培架構和基於此的一系列 AI 平台無一部顯示了一個 AI 晶元巨頭的實力,又一次樹立了性能標桿。
根據 Gartner 的預測數據 ,未來 5 年內全球人工智慧晶元市場規模將呈飆升趨勢 ,自 2018 年的 42.7 億美元 ,升高至 343 億美元 ,增長已超過 7 倍,可見 AI 晶元市場有較大增長空間。
盡管與西方發達國家相比,中國的 AI 晶元研發還存在一定差距,但過去兩年中,中國 AI 晶元初創企業已獲得了數億美元的資金。華為等公司也開發了令人印象深刻的晶元設計。
但晶元開發極具復雜性,中國人才的短缺以及缺乏多家全球銷售排名前 15 位的中國半導體公司的情況表明,中國仍需要取得重大進展,才能在半導體領域與美國匹敵。
C. 推薦一款適合深度學習AI場景應用性能較好的伺服器
深度學習是機器學習的分支,是一種以人工神經網路為架構,對數據進行表徵學習的演算法。深度學習在搜索技術,數據挖掘,機器學習,機器翻譯,自然語言處理等多個領域都取得了卓越的成果,可見其重要性
熟悉深度學習的人都知道,深度學習是需要訓練的,所謂的訓練就是在成千上萬個變數中尋找最佳值的計算。這需要通過不斷的嘗試識別,而最終獲得的數值並非是人工確定的數字,而是一種常態的公式。通過這種像素級的學習,不斷總結規律,計算機就可以實現像人一樣思考。因而,更擅長並行計算和高帶寬的GPU,則成了大家關注的重點。
很多人認為深度學習GPU伺服器配置跟普通伺服器有些不一樣,就像很多人認為做設計的機器一定很貴一樣。其實只要顯卡或者CPU滿足深度學習的應用程序就可以進行深度學習。由於現在CPU的核心數量和架構相對於深度學習來說效率會比GPU低很多,所以大部分深度學習的伺服器都是通過高端顯卡來運算的。
這里談談關於深度學習GPU伺服器如何選擇,深度學習伺服器的一些選購原則和建議:
1、電源:品質有保障,功率要足夠,有30~40%冗餘
穩定、穩定、還是穩定。一個好的電源能夠保證主機再長時間運行不宕機和重啟。可以想像一下,計算過程中突然重啟,那麼又要重來,除了降低效率,還影響心情。有些電源低負載使用的時候可能不出問題,一旦高負載運行的時候就容易出問題。選擇電源的時候一定要選擇功率有冗餘品質過硬,不要功率剛剛好超出一點。
2、顯卡:目前主流RTX3090,最新RTX4090也將上市
顯卡在深度學習中起到很重要的作用,也是預算的一大頭。預算有限,可以選擇RTX3080 /RTX3090/RTX4090(上月剛發布,本月12日上市)。預算充足,可以選擇專業深度學習卡Titan RTX/Tesla V100 /A6000/A100/H100(處於斷供中)等等。
3、CPU:兩家獨大,在這要講的是PC級和伺服器級別處理器的定位
Intel的處理器至強Xeon、酷睿Core、賽揚Celeron、奔騰Pentium和凌動Atom5個系列,而至強是用於伺服器端,目前市場上最常見的是酷睿。當下是第三代Xeon Scalable系列處理器,分為Platinum白金、Gold金牌、 Silver 銀牌。
AMD處理器分為銳龍Ryzen、銳龍Ryzen Pro、銳龍線程撕裂者Ryzen Threadripper、霄龍EPYC,其中霄龍是伺服器端的CPU,最常見的是銳龍。當下是第三代 EPYC(霄龍)處理器 ,AMD 第三代 EPYC 7003 系列最高 64核。
選擇單路還是雙路也是看軟體,純粹的使用GPU運算,其實CPU沒有多大負載。考慮到更多的用途,當然CPU不能太差。主流的高性能多核多線程CPU即可。
4、內存:單根16G/32G/64G 可選,伺服器級別內存有ECC功能,PC級內存沒有,非常重要
內存32G起步,內存都是可以擴展的,所以夠用就好,不夠以後可以再加,買多了是浪費。
5、硬碟:固態硬碟和機械硬碟,通常系統盤追求速度用固態硬碟,數據盤強調存儲量用機械盤
固態選擇大品牌企業級,Nvme或者SATA協議區別不大,雜牌固態就不要考慮了,用著用著突然掉盤就不好了。
6、機箱平台:伺服器級別建議選擇超微主板平台,穩定性、可靠性是第一要求
預留足夠的空間方便升級,比如現在使用單顯卡,未來可能要加顯卡等等;結構要合理,合理的空間更利於空氣流動。最好是加幾個散熱效果好的機箱風扇輔助散熱。溫度也是導致不穩定的一個因素。
7、軟硬體支持/解決方案:要有
應用方向:深度學習、量化計算、分子動力學、生物信息學、雷達信號處理、地震數據處理、光學自適應、轉碼解碼、醫學成像、圖像處理、密碼破解、數值分析、計算流體力學、計算機輔助設計等多個科研領域。
軟體: Caffe, TensorFlow, Abinit, Amber, Gromacs, Lammps, NAMD, VMD, Materials Studio, Wien2K, Gaussian, Vasp, CFX, OpenFOAM, Abaqus, Ansys, LS-DYNA, Maple, Matlab, Blast, FFTW, Nastran等軟體的安裝、調試、優化、培訓、維護等技術支持和服務。
————————————————
版權聲明:本文為CSDN博主「Ai17316391579」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/Ai17316391579/article/details/127533617
D. 國內的雲伺服器哪家好
阿里雲。
阿里雲創立於2009年,是全球領先的雲計算及人工智慧科技公司,致力於以在線公共服務的方式,提供安全、可靠的計算和數據處理能力,讓計算和人工智慧成為普惠科技。阿里雲服務著製造、金融、政務、交通、醫療、電信、能源等眾多領域的領軍企業。
包括中國聯通、12306、中石化、中石油、飛利浦、華大基因等大型企業客戶,以及微博、知乎、錘子科技等明星互聯網公司。在天貓雙11全球狂歡節、12306春運購票等極富挑戰的應用場景中,阿里雲保持著良好的運行記錄。
經營范圍
經營電信業務;服務:計算機軟硬體、電子產品、數碼產品的技術開發、技術服務,企業管理咨詢與計算機信息技術咨詢;設計、製作、代理、發布國內廣告,成年人的非文化教育培訓、成年人的非證書勞動職業技能培訓(涉及前置審批的項目除外)。
批發、零售:計算機軟硬體,電子產品(除專控),數碼產品;會務服務,承辦展覽,展覽展示設計;智能化設計咨詢及改造。