1. 深度學習顯卡怎麼看CUDA compute capability
該項目的計算力,GTX1080TI算力6.1/3.7,約K80的1.64倍
目前深度學習比較熱門的卡:RTX2080TI,RTX2070(多路),GTX1080TI目前退市不容易買到多張。(二手另說)
*CUDA平台的深度學習,顯卡主要看:單精度浮點運算,顯存,Tensor Core(圖靈架構與伏特架構才有,RTX系列與TITAN V)
*Tesla主要穩定性與一些特殊功能上,雙精度(目前這個深度學慣用的少),跑單精度與半精度浮點運算優勢不大,價格昂貴(想要超過GTX1080TI算力,需要Tesla V100,一張幾萬)
2. 2022-01-21 查看顯卡算力
筆者GeForce RT 710顯卡,裝的是792版本驅動,查看GPU信息,提示支持到CUDA11.4,遂裝了11.4版本的CUDA,
首先驗證CUDA環境是安裝成功的
但是在安裝paddle後,執行paddle驗證函數時,提示錯誤
查資料說是顯卡算力不足。
在NVIDIA網站查看顯卡對應的算力表: https://developer.nvidia.com/zh-cn/cuda-gpus#compute
也可以在執行Python腳本獲取顯卡算力信息
3. nvidia顯卡和CUDA版本關系
CUDA capability sm_86:算力8.6
上面表面上是說PyTorch,實際上是PyTorch依賴的CUDA版本的問題
翻譯一下就是:RTX 3080的算力是8.6,但是當前的PyTorch依賴的CUDA版本支持的算力只有3.7、5.0、6.0、6.1、7.0、7.5及3.7以下
https://docs.nvidia.com/cuda/ampere-compatibility-guide/index.html#application-compatibility-on-ampere
翻譯一下就是:
算力7.0的顯卡可以在支持最高算力7.5的CUDA版本下運行,但是算力7.5的顯卡不可以在支持最高算力7.0的CUDA版本下運行
同理算力8.x的顯卡不可以在支持最高算力7.x的CUDA版本下運行
直接用最新版本的cuda,肯定就可以讓所有顯卡都可以用
缺點:pytorch不一定支持最新版本的CUDA
如上圖,pytorch支持最新版本的CUDA為11.1,但是CUDA最新版本為11.2,裝了CUDA11.2就用不了pytorch
看CUDA文檔
https://docs.nvidia.com/cuda/ampere-compatibility-guide/index.html#building-ampere-compatible-apps-using-cuda-10-0
CUDA10.x最高支持算力7.x
另一種理解CUDA10.x支持Volta伏打架構和Turing圖靈架構的顯卡
https://docs.nvidia.com/cuda/ampere-compatibility-guide/index.html#building-ampere-compatible-apps-using-cuda-11-0
CUDA11.0最高支持算力8.0(註:這感覺應該是8.x)
另一種理解CUDA11.0支持Ampere安培架構的顯卡
https://developer.nvidia.com/zh-cn/cuda-gpus#compute
https://blog.csdn.net/weixin_43751285/article/details/109648689
4. cuda核心數量有什麼用
cuda核心數量越多運算速度就會越快。
同樣架構下,運算速度和核心數量等比例遞增,Cuda核心裏面有運算器,例如一個Float32浮點運算器,1000個核心,1G主頻,則FP32的算力為1T Flops,就是這么簡單。
新的架構下:
1、Float的運算器可能是 64位的,可以實現雙精度計算,在單精度上翻倍。
2、新的Tensor Core運算器支持FP16、INT8、INT4的計算能力,速度等比例翻倍。
3、新的Tensor Core可以支持4*4 個運算在一個時鍾周期內完成,性能翻16倍數,Cuda Core和Tensor Core是不同的硬體單元,計算性能累加。
中央處理器(central processing unit,簡稱CPU)作為計算機系統的運算和控制核心,是信息處理、程序運行的最終執行單元。CPU自產生以來,在邏輯結構、運行效率以及功能外延上取得了巨大發展。
CPU出現於大規模集成電路時代,處理器架構設計的迭代更新以及集成電路工藝的不斷提升促使其不斷發展完善。
從最初專用於數學計算到廣泛應用於通用計算,從4位到8位、16位、32位處理器,最後到64位處理器,從各廠商互不兼容到不同指令集架構規范的出現,CPU 自誕生以來一直在飛速發展。
馮諾依曼體系結構是現代計算機的基礎。在該體系結構下,程序和數據統一存儲,指令和數據需要從同一存儲空間存取。
經由同一匯流排傳輸,無法重疊執行。根據馮諾依曼體系,CPU的工作分為以下 5 個階段:取指令階段、指令解碼階段、執行指令階段、訪存取數和結果寫回。
5. 深度學習顯卡用amd還是英偉達
深度學習顯卡用英偉達比較好。
NVIDIA使用的人較多,所以網上的資源也比較多,容易學習和構建。而AMD的顯卡,由於很遲才推出它的編程架構,用的人比較少,所以網上的資料較少,所以很難去學習。NVIDIA在深度學習訓練方面的領先地位在MLPerf 0.6中得到了證明,這是AI訓練的第一項行業級基準測試。
深度學習顯卡的選擇:
1、選擇算力在5.0以上的
根據官方說明,在GPU算力高於5.0時,可以用來跑神經網路。算力越高,計算能力越強,建議小夥伴們在資金充足的情況下,盡量買算力高一些的。
2、盡量選擇大顯存
顯存越高,意味著性能越強悍。特別是對於CV領域的朋友們,建議至少有一個8GB顯存的顯卡。下面是英偉達的部分中高端顯卡的一些性能參數。
3、GPU幾個重要的參數
GPU架構:
不同款的GPU可能採用不同設計架構,比如GeForce 10系列的GTX 1080/1080Ti採用的是Pascal架構,而GeForce 20系列的RTX 2080/2080Ti採用的是Turing架構。不同架構的GPU,即使其他參數差不多,性能差別可能非常大。
顯存帶寬:
代表GPU晶元每秒與顯存交換的數據大小,這個值等於顯存位寬*工作頻率,單位為GB/秒,該值越大,代表GPU性能越好。Geforce GTX 1080的顯存帶寬為320GB/秒,而它的升級版Geforce RTX 2080的帶寬為448GB/秒。
顯存位寬:
代表GPU晶元每個時鍾周期內能從GPU顯存中讀取的數據大小,這個值越大代表GPU晶元和顯存之間數據交換的速度越快,性能越好。Geforce GTX 1080的顯存位寬為256bit,Geforce RTX 2080Ti顯存位寬為352bit。
GPU工作頻率:
代表GPU每秒鍾工作次數,單位為MHz,跟CPU的頻率類似。該值越大代表性能越好。
CUDA核心數量:
CUDA核心數量越大越好,Geforce GTX 1080的CUDA核心數量是2560個。而Geforce RTX 2080Ti的CUDA核心數高達4352個。
功耗:
GPU能耗,像Geforce這種消費級的顯卡一般功耗非常高,Geforce GTX 1080的最大功耗為175W,Tesla P4的最大功耗為75W。像那種數據中心大規模級別的GPU部署,低功耗的顯卡一年電費能省很多。