㈠ 計算平台各IP算力評估方法
計算平台各IP算力評估方法具體如下:
1、CPU算力
計算公式:內核數量 * 主頻 * DMIPS/MHz
例如:六核A55架構,主頻1.6GHz,IPC性能2.7DMIPS/MHz,算力DMIPS = 6 * 1660MHz * 2.7DMIPS/MHz = 26892 DMIPS = 27K DMIPS
FLOPS計算公式:核數 * 單核主頻 * 單個周期浮點計算值
單個周期浮點計算值(雙精度64位)= FMA數量 * 2(同時加法和乘法)* 512/64
例如:Tesla P100雙精度理論峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 * 1.48GHz * 2 = 5.3 TFlops
以Intel Cascade Lake架構的Xeon Platinum 8280為例,28個核心,主頻2.7GHz,支持AVX512指令集。單個核心峰值浮點運算能力 = 32 FLOPS/Cycle * 2.7 GHz,單CPU算力 = 28 cores * 單個CPU核心的峰值浮點運算能力 = 2.4192 TFLOPS。
2、GPU算力
計算公式:MAC矩陣行 * MAC矩陣列 * 主頻 * 2
例如:Tesla P100的理論雙精度浮點性能 = 1792Core * 1.328GHZ * 2FLOPs/Cycle = 4759.552GFLOPs = 4.7TFLOPs
以NVIDIA Volta架構的V100為例,2560個雙精度浮點核心(FP64 cores),主頻1.530GHz,單個GPU核心峰值浮點運算能力 = 2 FLOPS/Cycle * 1.530 GHz,單GPU算力 = 2560 cores * 單個GPU核心的峰值浮點運算能力 = 7833 GFLOPS = 7.833 TFLOPS。
3、NPU算力
8位精度下的MAC數量在FP16精度下等於減少了一半。NPU使用MAC陣列作為神經網路加速的核心,許多運算可以分解為數個MAC指令,因此可以提高效率。計算公式:TOPS = MAC矩陣行 * MAC矩陣列 * 2 * 主頻。
例如:特斯拉自動駕駛FSD晶元的計算能力 = 96 * 96 * 2 * 2G = 36.864 TOPS(單核)。
4、DSP算力
雖然主頻不如CPU,但DSP晶元勝在乘法器多,運算能力比CPU強。計算方法與NPU相似,MIPS、MOPS、MFLOPTS、BOPS等性能指標用於衡量。
DMIPS/MHz和CoreMark®/MHz是評估處理器性能的指標。DMIPS/MHz表示每秒執行的Dhrystone百萬條指令數,而MHz表示處理器的時鍾頻率。CoreMark是一種用於評估嵌入式處理器性能的基準測試程序。
不同計算平台的算力評估方法各異,但核心思路在於衡量其執行指令、浮點運算、神經網路加速和特定演算法硬體加速的能力。
㈡ 綆楀姏鍜屾寲鐭挎庝箞鏍瘋
綆楀姏鏄鎸囪$畻鏈哄勭悊鏁版嵁鐨勮兘鍔涳紝閫氬父浠ユ瘡縐掕兘澶勭悊鐨勬誕鐐硅繍綆楁℃暟錛團LOPS錛変負鍗曚綅榪涜岃閲忋傚湪鍔犲瘑璐у竵鎸栫熆涓錛岀畻鍔涚敤浜庤〃紺烘寲鐭胯懼囩殑鎬ц兘銆傛寲鐭挎槸閫氳繃璁$畻鏈烘墽琛屽嶆潅鏁板﹁$畻浠ヨ禋鍙栧姞瀵嗚揣甯佺殑榪囩▼銆傜畻鍔涘拰鎸栫熆鐨勮$畻鏂規硶濡備笅錛
1. 綆楀姏鐨勮$畻錛
閫氬父錛岀畻鍔涚殑璁$畻鏄灝嗚$畻鏈哄勭悊鍣ㄧ殑鍩哄噯嫻嬭瘯鍒嗘暟涓庡勭悊鍣ㄧ殑鏃墮挓棰戠巼鐩鎬箻銆備緥濡傦紝濡傛灉澶勭悊鍣ㄧ殑鍩哄噯嫻嬭瘯鍒嗘暟涓1000錛屾椂閽熼戠巼涓2.0GHz錛岄偅涔堢畻鍔涗負1000 * 2.0 = 2000GFLOPS銆傞櫎姝や箣澶栵紝榪樺彲浠ヤ嬌鐢ㄤ笓闂ㄧ殑綆楀姏嫻嬭瘯杞浠舵垨鎸栫熆杞浠跺唴緗鐨勭畻鍔涙樉紺哄姛鑳芥潵璁$畻銆
2. 鎸栫熆鏀剁泭鐨勮$畻錛
鎸栫熆鏀剁泭鐨勮$畻鍙栧喅浜庢墍鍙備笌鐨勫姞瀵嗚揣甯佺被鍨嬪拰鎸栫熆璁懼囩殑綆楀姏銆備互姣旂壒甯佷負渚嬶紝鍙浠ヤ嬌鐢ㄦ瘮鐗瑰竵鎸栫熆璁$畻鍣ㄦ潵浼扮畻娼滃湪鐨勬寲鐭挎敹鐩娿傛瘮鐗瑰竵鎸栫熆璁$畻鍣ㄩ氬父闇瑕佽緭鍏ヤ互涓嬩俊鎮錛氭寲鐭胯懼囩殑綆楀姏銆佺數璐硅垂鐜囥佹瘮鐗瑰竵鐨勯毦搴︾郴鏁般佺綉緇滃甫瀹界瓑鍙傛暟銆傛牴鎹榪欎簺鍙傛暟錛岃$畻鍣ㄥ彲浠ヤ及綆楀嚭姣忓ぉ銆佹瘡鍛ㄣ佹瘡鏈堝拰姣忓勾鐨勬寲鐭挎敹鐩娿
闇瑕佹敞鎰忕殑鏄錛屾寲鐭挎敹鐩婂苟闈炲滻瀹氫笉鍙橈紝瀹冧細鍙楀埌澶氱嶅洜緔犵殑褰卞搷錛屽傚競鍦鴻屾儏銆佹寲鐭塊毦搴︺佺數璐硅垂鐜囩瓑銆傚洜姝わ紝鎸栫熆鏀剁泭鐨勮$畻緇撴灉浠呬緵鍙傝冿紝瀹為檯鎸栫熆鏀剁泭鍙鑳戒細鏈夋墍涓嶅悓銆
㈢ cpu算力怎麼計算
CPU的算力與CPU的核心的個數,核心的頻率,核心單時鍾周期的能力三個因素有關系
常用雙精度浮點運算能力衡量CPU的科學計算的能力,就是處理64bit小數點浮動數據的能力
支持AVX2的處理器在1個核心1個時鍾周期可以執行16次浮點運算,也稱為16FLOPs
CPU的算力=核心的個數 x 核心的頻率 x 16FLOPs
支持AVX512的處理器在1個核心1個時鍾周期可以執行32次浮點運算,也稱為32FLOPs
CPU的算力=核心的個數 x 核心的頻率 x 32FLOPs
㈣ 鐭挎満鐨勭畻鍔涙槸鎬庝箞鏍風畻
鐭挎満鐨勭畻鍔涙槸鎬庝箞綆楃殑
鐭挎満鐨勭畻鍔涙槸鎸囧叾鑳藉熷畬鎴愭瘡縐掗挓澶勭悊鐨勫搱甯岃繍綆楁暟閲忥紝閫氬父鐢ㄥ搱甯岀巼錛圚ashrate錛夎〃紺猴紝鍗曚綅鏄鍝堝笇姣忕掞紙Hash/s錛夋垨鑰呭崈鍏嗗搱甯屾瘡縐掞紙MH/s錛夌瓑銆
鐭挎満鐨勭畻鍔涘彇鍐充簬鍏舵墍閲囩敤鐨勮姱鐗囩被鍨嬨佹暟閲忋侀戠巼絳夊洜緔犮備互姣旂壒甯佺熆鏈轟負渚嬶紝瀹冧滑閲囩敤鐨勮姱鐗囧氫負ASIC鑺鐗囷紝閫氳繃涓嶆柇榪愮畻鍖哄潡澶達紝浠ュ繪壘絎﹀悎瑕佹眰鐨勫尯鍧楀搱甯屽礆紝浠庤岃幏寰楁瘮鐗瑰竵濂栧姳銆傜畻鍔涜秺楂橈紝澶勭悊榪愮畻閫熷害瓚婂揩錛岃兘澶熷弬涓庣殑綆楀姏絝炰簤灝辮秺澶э紝浠庤岃幏寰楃殑鏀剁泭涔熷氨瓚婇珮銆
鐭挎満綆楀姏鐨勮$畻鍏寮忎負錛氱熆鏈虹畻鍔=姣忕掗挓鐨勫搱甯岃繍綆楁暟閲/1鐧句竾錛屽叾涓鍝堝笇榪愮畻鏁伴噺鏄鎸囩熆鏈烘瘡縐掗挓鑳藉熷畬鎴愮殑鍝堝笇榪愮畻嬈℃暟錛岄櫎浠1鐧句竾鏄涓轟簡灝嗗崟浣嶆崲綆楁垚MH/s銆
涓句緥鏉ヨ達紝濡傛灉涓涓鐭挎満姣忕掗挓鑳藉熷畬鎴1000涓囨″搱甯岃繍綆楋紝鍒欏叾綆楀姏涓10MH/s銆傞渶瑕佹敞鎰忕殑鏄錛屼笉鍚岀殑鍔犲瘑璐у竵鎸栫熆綆楁硶鏈変笉鍚岀殑鍝堝笇榪愮畻瑕佹眰錛屽洜姝ゅ悓涓鐭挎満鍦ㄤ笉鍚岀殑鎸栫熆綆楁硶涓嬶紝鍏剁畻鍔涘煎彲鑳戒細涓嶅悓銆
㈤ 綆楀姏鏄浠涔
綆楀姏鏄鎸囪$畻鏈虹郴緇熸垨璁懼囧湪鍗曚綅鏃墮棿鍐呮墽琛屾寚浠ゃ佽繍綆楁垨澶勭悊鏁版嵁鐨勮兘鍔涖
綆楀姏閫氬父鐢ㄤ簬琛¢噺璁$畻鏈虹‖浠舵垨緋葷粺鐨勬ц兘姘村鉤錛岀壒鍒鏄鍦ㄥ勭悊澶嶆潅浠誨姟銆佽繍琛屽ぇ瑙勬ā紼嬪簭鎴栬繘琛岄珮鎬ц兘璁$畻鏃躲
璁$畻鏈虹殑綆楀姏鍙楀氫釜鍥犵礌褰卞搷錛屽寘鎷澶勭悊鍣ㄧ殑鏋舵瀯銆佷富棰戱紙鏃墮挓棰戠巼錛夈佹牳蹇冩暟閲忋佸唴瀛樺甫瀹姐佺紦瀛樺歸噺絳夈傝緝楂樼殑綆楀姏鎰忓懗鐫璁$畻鏈鴻兘澶熸洿蹇鍦板畬鎴愪換鍔★紝澶勭悊鏇村氱殑鏁版嵁錛屾垨鑰呰繘琛屾洿澶嶆潅鐨勮$畻銆傝繖鍦ㄨ稿氬簲鐢ㄩ嗗煙閮借嚦鍏抽噸瑕侊紝渚嬪傜戝︾爺絀躲佸伐紼嬫ā鎷熴佸浘鍍忓勭悊銆佷漢宸ユ櫤鑳藉拰鍔犲瘑璐у竵鎸栫熆絳夈
闅忕潃鎶鏈鐨勪笉鏂榪涙ワ紝璁$畻鏈虹殑綆楀姏涔熷湪涓嶆柇鎻愬崌銆傝繖鍙浠ラ氳繃涓嶆柇鍗囩駭紜浠剁粍浠訛紝閲囩敤鏇村厛榪涚殑鍒剁▼鎶鏈錛屼紭鍖栫畻娉曞拰杞浠訛紝浠ュ強鍒╃敤騫惰岃$畻絳夋柟寮忔潵瀹炵幇銆備緥濡傦紝鍥懼艦澶勭悊鍗曞厓錛圙PU錛夊湪楂樻ц兘璁$畻鍜屾繁搴﹀︿範棰嗗煙鐨勫簲鐢錛屽ぇ澶ф彁鍗囦簡緋葷粺鐨勭畻鍔涖
鎻愬崌璁$畻鏈虹畻鍔涚殑鎰忎箟
1銆佸姞閫熺戝︾爺絀朵笌鍙戠幇錛氬湪縐戝︾爺絀朵腑錛岃稿氶棶棰橀渶瑕佸ぇ瑙勬ā鐨勮$畻鏉ユā鎷熷拰鍒嗘瀽錛屼緥濡傚ぉ鏂囧︺佹皵璞″︺佹潗鏂欑戝︾瓑銆傛彁鍗囩畻鍔涜兘澶熷姞蹇鏁版嵁澶勭悊鍜屾ā鎷熺殑閫熷害錛屾湁鍔╀簬縐戝﹀舵洿蹇鍦板彂鐜版柊鐭ヨ瘑鍜屾礊瀵熴
2銆佷績榪涘伐紼嬭捐″拰妯℃嫙錛氬伐紼嬮嗗煙闇瑕佽繘琛屽嶆潅鐨勬ā鎷熷拰璁$畻錛屽傞炴満璁捐°佸緩絳戠粨鏋勫垎鏋愩佹苯杞︾版挒嫻嬭瘯絳夈傞珮綆楀姏鍙鍔犻熻繖浜涜繃紼嬶紝鍑忓皯寮鍙戝懆鏈燂紝鎻愰珮浜у搧璐ㄩ噺銆
3銆佹敮鎸佸尰瀛︾爺絀朵笌鍖葷枟搴旂敤錛氬尰瀛﹀浘鍍忓勭悊銆佽嵂鐗╃爺鍙戙佸熀鍥犵粍瀛﹀垎鏋愮瓑闇瑕佸ぇ閲忚$畻璧勬簮銆傜畻鍔涚殑鎻愬崌鏈夊姪浜庢洿蹇鍦板垎鏋愬尰瀛︽暟鎹錛屽姞閫熻嵂鐗╃瓫閫夊拰鐤劇棶璇婃柇銆
4銆佹帹鍔ㄤ漢宸ユ櫤鑳藉拰鏈哄櫒瀛︿範錛氳緇冨嶆潅鐨勪漢宸ユ櫤鑳芥ā鍨嬶紝濡傛繁搴︾炵粡緗戠粶錛岄渶瑕佸ぇ閲忚$畻璧勬簮銆傞珮綆楀姏鏈夊姪浜庡姞閫熸ā鍨嬭緇冿紝鎻愰珮妯″瀷鎬ц兘鍜屽噯紜搴︺
5銆佹敼鍠勮櫄鎷熺幇瀹炲拰澧炲己鐜板疄浣撻獙錛氳櫄鎷熺幇瀹炲拰澧炲己鐜板疄搴旂敤闇瑕佸疄鏃剁殑鍥懼艦娓叉煋鍜岀墿鐞嗘ā鎷熴傛彁鍗囩畻鍔涘彲浠ユ彁楂樻覆鏌撹川閲忓拰浜や簰鎬э紝浣跨敤鎴瘋幏寰楁洿閫肩湡鐨勪綋楠屻