㈠ 计算平台各IP算力评估方法
计算平台各IP算力评估方法具体如下:
1、CPU算力
计算公式:内核数量 * 主频 * DMIPS/MHz
例如:六核A55架构,主频1.6GHz,IPC性能2.7DMIPS/MHz,算力DMIPS = 6 * 1660MHz * 2.7DMIPS/MHz = 26892 DMIPS = 27K DMIPS
FLOPS计算公式:核数 * 单核主频 * 单个周期浮点计算值
单个周期浮点计算值(双精度64位)= FMA数量 * 2(同时加法和乘法)* 512/64
例如:Tesla P100双精度理论峰值 = FP64 Cores * GPU Boost Clock * 2 = 1792 * 1.48GHz * 2 = 5.3 TFlops
以Intel Cascade Lake架构的Xeon Platinum 8280为例,28个核心,主频2.7GHz,支持AVX512指令集。单个核心峰值浮点运算能力 = 32 FLOPS/Cycle * 2.7 GHz,单CPU算力 = 28 cores * 单个CPU核心的峰值浮点运算能力 = 2.4192 TFLOPS。
2、GPU算力
计算公式:MAC矩阵行 * MAC矩阵列 * 主频 * 2
例如:Tesla P100的理论双精度浮点性能 = 1792Core * 1.328GHZ * 2FLOPs/Cycle = 4759.552GFLOPs = 4.7TFLOPs
以NVIDIA Volta架构的V100为例,2560个双精度浮点核心(FP64 cores),主频1.530GHz,单个GPU核心峰值浮点运算能力 = 2 FLOPS/Cycle * 1.530 GHz,单GPU算力 = 2560 cores * 单个GPU核心的峰值浮点运算能力 = 7833 GFLOPS = 7.833 TFLOPS。
3、NPU算力
8位精度下的MAC数量在FP16精度下等于减少了一半。NPU使用MAC阵列作为神经网络加速的核心,许多运算可以分解为数个MAC指令,因此可以提高效率。计算公式:TOPS = MAC矩阵行 * MAC矩阵列 * 2 * 主频。
例如:特斯拉自动驾驶FSD芯片的计算能力 = 96 * 96 * 2 * 2G = 36.864 TOPS(单核)。
4、DSP算力
虽然主频不如CPU,但DSP芯片胜在乘法器多,运算能力比CPU强。计算方法与NPU相似,MIPS、MOPS、MFLOPTS、BOPS等性能指标用于衡量。
DMIPS/MHz和CoreMark®/MHz是评估处理器性能的指标。DMIPS/MHz表示每秒执行的Dhrystone百万条指令数,而MHz表示处理器的时钟频率。CoreMark是一种用于评估嵌入式处理器性能的基准测试程序。
不同计算平台的算力评估方法各异,但核心思路在于衡量其执行指令、浮点运算、神经网络加速和特定算法硬件加速的能力。
㈡ 绠楀姏鍜屾寲鐭挎庝箞鏍疯
绠楀姏鏄鎸囪$畻鏈哄勭悊鏁版嵁鐨勮兘鍔涳紝閫氬父浠ユ瘡绉掕兘澶勭悊鐨勬诞鐐硅繍绠楁℃暟锛團LOPS锛変负鍗曚綅杩涜岃閲忋傚湪鍔犲瘑璐у竵鎸栫熆涓锛岀畻鍔涚敤浜庤〃绀烘寲鐭胯惧囩殑鎬ц兘銆傛寲鐭挎槸閫氳繃璁$畻鏈烘墽琛屽嶆潅鏁板﹁$畻浠ヨ禋鍙栧姞瀵嗚揣甯佺殑杩囩▼銆傜畻鍔涘拰鎸栫熆鐨勮$畻鏂规硶濡備笅锛
1. 绠楀姏鐨勮$畻锛
閫氬父锛岀畻鍔涚殑璁$畻鏄灏嗚$畻鏈哄勭悊鍣ㄧ殑鍩哄噯娴嬭瘯鍒嗘暟涓庡勭悊鍣ㄧ殑鏃堕挓棰戠巼鐩镐箻銆備緥濡傦紝濡傛灉澶勭悊鍣ㄧ殑鍩哄噯娴嬭瘯鍒嗘暟涓1000锛屾椂閽熼戠巼涓2.0GHz锛岄偅涔堢畻鍔涗负1000 * 2.0 = 2000GFLOPS銆傞櫎姝や箣澶栵紝杩樺彲浠ヤ娇鐢ㄤ笓闂ㄧ殑绠楀姏娴嬭瘯杞浠舵垨鎸栫熆杞浠跺唴缃鐨勭畻鍔涙樉绀哄姛鑳芥潵璁$畻銆
2. 鎸栫熆鏀剁泭鐨勮$畻锛
鎸栫熆鏀剁泭鐨勮$畻鍙栧喅浜庢墍鍙備笌鐨勫姞瀵嗚揣甯佺被鍨嬪拰鎸栫熆璁惧囩殑绠楀姏銆備互姣旂壒甯佷负渚嬶紝鍙浠ヤ娇鐢ㄦ瘮鐗瑰竵鎸栫熆璁$畻鍣ㄦ潵浼扮畻娼滃湪鐨勬寲鐭挎敹鐩娿傛瘮鐗瑰竵鎸栫熆璁$畻鍣ㄩ氬父闇瑕佽緭鍏ヤ互涓嬩俊鎭锛氭寲鐭胯惧囩殑绠楀姏銆佺數璐硅垂鐜囥佹瘮鐗瑰竵鐨勯毦搴︾郴鏁般佺綉缁滃甫瀹界瓑鍙傛暟銆傛牴鎹杩欎簺鍙傛暟锛岃$畻鍣ㄥ彲浠ヤ及绠楀嚭姣忓ぉ銆佹瘡鍛ㄣ佹瘡鏈堝拰姣忓勾鐨勬寲鐭挎敹鐩娿
闇瑕佹敞鎰忕殑鏄锛屾寲鐭挎敹鐩婂苟闈炲浐瀹氫笉鍙橈紝瀹冧細鍙楀埌澶氱嶅洜绱犵殑褰卞搷锛屽傚競鍦鸿屾儏銆佹寲鐭块毦搴︺佺數璐硅垂鐜囩瓑銆傚洜姝わ紝鎸栫熆鏀剁泭鐨勮$畻缁撴灉浠呬緵鍙傝冿紝瀹為檯鎸栫熆鏀剁泭鍙鑳戒細鏈夋墍涓嶅悓銆
㈢ cpu算力怎么计算
CPU的算力与CPU的核心的个数,核心的频率,核心单时钟周期的能力三个因素有关系
常用双精度浮点运算能力衡量CPU的科学计算的能力,就是处理64bit小数点浮动数据的能力
支持AVX2的处理器在1个核心1个时钟周期可以执行16次浮点运算,也称为16FLOPs
CPU的算力=核心的个数 x 核心的频率 x 16FLOPs
支持AVX512的处理器在1个核心1个时钟周期可以执行32次浮点运算,也称为32FLOPs
CPU的算力=核心的个数 x 核心的频率 x 32FLOPs
㈣ 鐭挎満鐨勭畻鍔涙槸鎬庝箞鏍风畻
鐭挎満鐨勭畻鍔涙槸鎬庝箞绠楃殑
鐭挎満鐨勭畻鍔涙槸鎸囧叾鑳藉熷畬鎴愭瘡绉掗挓澶勭悊鐨勫搱甯岃繍绠楁暟閲忥紝閫氬父鐢ㄥ搱甯岀巼锛圚ashrate锛夎〃绀猴紝鍗曚綅鏄鍝堝笇姣忕掞紙Hash/s锛夋垨鑰呭崈鍏嗗搱甯屾瘡绉掞紙MH/s锛夌瓑銆
鐭挎満鐨勭畻鍔涘彇鍐充簬鍏舵墍閲囩敤鐨勮姱鐗囩被鍨嬨佹暟閲忋侀戠巼绛夊洜绱犮備互姣旂壒甯佺熆鏈轰负渚嬶紝瀹冧滑閲囩敤鐨勮姱鐗囧氫负ASIC鑺鐗囷紝閫氳繃涓嶆柇杩愮畻鍖哄潡澶达紝浠ュ绘壘绗﹀悎瑕佹眰鐨勫尯鍧楀搱甯屽硷紝浠庤岃幏寰楁瘮鐗瑰竵濂栧姳銆傜畻鍔涜秺楂橈紝澶勭悊杩愮畻閫熷害瓒婂揩锛岃兘澶熷弬涓庣殑绠楀姏绔炰簤灏辫秺澶э紝浠庤岃幏寰楃殑鏀剁泭涔熷氨瓒婇珮銆
鐭挎満绠楀姏鐨勮$畻鍏寮忎负锛氱熆鏈虹畻鍔=姣忕掗挓鐨勫搱甯岃繍绠楁暟閲/1鐧句竾锛屽叾涓鍝堝笇杩愮畻鏁伴噺鏄鎸囩熆鏈烘瘡绉掗挓鑳藉熷畬鎴愮殑鍝堝笇杩愮畻娆℃暟锛岄櫎浠1鐧句竾鏄涓轰簡灏嗗崟浣嶆崲绠楁垚MH/s銆
涓句緥鏉ヨ达紝濡傛灉涓涓鐭挎満姣忕掗挓鑳藉熷畬鎴1000涓囨″搱甯岃繍绠楋紝鍒欏叾绠楀姏涓10MH/s銆傞渶瑕佹敞鎰忕殑鏄锛屼笉鍚岀殑鍔犲瘑璐у竵鎸栫熆绠楁硶鏈変笉鍚岀殑鍝堝笇杩愮畻瑕佹眰锛屽洜姝ゅ悓涓鐭挎満鍦ㄤ笉鍚岀殑鎸栫熆绠楁硶涓嬶紝鍏剁畻鍔涘煎彲鑳戒細涓嶅悓銆
㈤ 绠楀姏鏄浠涔
绠楀姏鏄鎸囪$畻鏈虹郴缁熸垨璁惧囧湪鍗曚綅鏃堕棿鍐呮墽琛屾寚浠ゃ佽繍绠楁垨澶勭悊鏁版嵁鐨勮兘鍔涖
绠楀姏閫氬父鐢ㄤ簬琛¢噺璁$畻鏈虹‖浠舵垨绯荤粺鐨勬ц兘姘村钩锛岀壒鍒鏄鍦ㄥ勭悊澶嶆潅浠诲姟銆佽繍琛屽ぇ瑙勬ā绋嬪簭鎴栬繘琛岄珮鎬ц兘璁$畻鏃躲
璁$畻鏈虹殑绠楀姏鍙楀氫釜鍥犵礌褰卞搷锛屽寘鎷澶勭悊鍣ㄧ殑鏋舵瀯銆佷富棰戯紙鏃堕挓棰戠巼锛夈佹牳蹇冩暟閲忋佸唴瀛樺甫瀹姐佺紦瀛樺归噺绛夈傝緝楂樼殑绠楀姏鎰忓懗鐫璁$畻鏈鸿兘澶熸洿蹇鍦板畬鎴愪换鍔★紝澶勭悊鏇村氱殑鏁版嵁锛屾垨鑰呰繘琛屾洿澶嶆潅鐨勮$畻銆傝繖鍦ㄨ稿氬簲鐢ㄩ嗗煙閮借嚦鍏抽噸瑕侊紝渚嬪傜戝︾爺绌躲佸伐绋嬫ā鎷熴佸浘鍍忓勭悊銆佷汉宸ユ櫤鑳藉拰鍔犲瘑璐у竵鎸栫熆绛夈
闅忕潃鎶鏈鐨勪笉鏂杩涙ワ紝璁$畻鏈虹殑绠楀姏涔熷湪涓嶆柇鎻愬崌銆傝繖鍙浠ラ氳繃涓嶆柇鍗囩骇纭浠剁粍浠讹紝閲囩敤鏇村厛杩涚殑鍒剁▼鎶鏈锛屼紭鍖栫畻娉曞拰杞浠讹紝浠ュ強鍒╃敤骞惰岃$畻绛夋柟寮忔潵瀹炵幇銆備緥濡傦紝鍥惧舰澶勭悊鍗曞厓锛圙PU锛夊湪楂樻ц兘璁$畻鍜屾繁搴﹀︿範棰嗗煙鐨勫簲鐢锛屽ぇ澶ф彁鍗囦簡绯荤粺鐨勭畻鍔涖
鎻愬崌璁$畻鏈虹畻鍔涚殑鎰忎箟
1銆佸姞閫熺戝︾爺绌朵笌鍙戠幇锛氬湪绉戝︾爺绌朵腑锛岃稿氶棶棰橀渶瑕佸ぇ瑙勬ā鐨勮$畻鏉ユā鎷熷拰鍒嗘瀽锛屼緥濡傚ぉ鏂囧︺佹皵璞″︺佹潗鏂欑戝︾瓑銆傛彁鍗囩畻鍔涜兘澶熷姞蹇鏁版嵁澶勭悊鍜屾ā鎷熺殑閫熷害锛屾湁鍔╀簬绉戝﹀舵洿蹇鍦板彂鐜版柊鐭ヨ瘑鍜屾礊瀵熴
2銆佷績杩涘伐绋嬭捐″拰妯℃嫙锛氬伐绋嬮嗗煙闇瑕佽繘琛屽嶆潅鐨勬ā鎷熷拰璁$畻锛屽傞炴満璁捐°佸缓绛戠粨鏋勫垎鏋愩佹苯杞︾版挒娴嬭瘯绛夈傞珮绠楀姏鍙鍔犻熻繖浜涜繃绋嬶紝鍑忓皯寮鍙戝懆鏈燂紝鎻愰珮浜у搧璐ㄩ噺銆
3銆佹敮鎸佸尰瀛︾爺绌朵笌鍖荤枟搴旂敤锛氬尰瀛﹀浘鍍忓勭悊銆佽嵂鐗╃爺鍙戙佸熀鍥犵粍瀛﹀垎鏋愮瓑闇瑕佸ぇ閲忚$畻璧勬簮銆傜畻鍔涚殑鎻愬崌鏈夊姪浜庢洿蹇鍦板垎鏋愬尰瀛︽暟鎹锛屽姞閫熻嵂鐗╃瓫閫夊拰鐤剧梾璇婃柇銆
4銆佹帹鍔ㄤ汉宸ユ櫤鑳藉拰鏈哄櫒瀛︿範锛氳缁冨嶆潅鐨勪汉宸ユ櫤鑳芥ā鍨嬶紝濡傛繁搴︾炵粡缃戠粶锛岄渶瑕佸ぇ閲忚$畻璧勬簮銆傞珮绠楀姏鏈夊姪浜庡姞閫熸ā鍨嬭缁冿紝鎻愰珮妯″瀷鎬ц兘鍜屽噯纭搴︺
5銆佹敼鍠勮櫄鎷熺幇瀹炲拰澧炲己鐜板疄浣撻獙锛氳櫄鎷熺幇瀹炲拰澧炲己鐜板疄搴旂敤闇瑕佸疄鏃剁殑鍥惧舰娓叉煋鍜岀墿鐞嗘ā鎷熴傛彁鍗囩畻鍔涘彲浠ユ彁楂樻覆鏌撹川閲忓拰浜や簰鎬э紝浣跨敤鎴疯幏寰楁洿閫肩湡鐨勪綋楠屻