Ⅰ 鍚勭畻瀛愬簱瀵笴NN鐨勬敮鎸
OpenBLAS 鏄涓涓浼樺寲鐨 BLAS 搴擄紝鍩轟簬 GotoBLAS2 1.13 BSD 鐗堟湰銆
BLAS錛圔asic Linear Algebra Subprograms 鍩虹綰挎т唬鏁扮▼搴忛泦錛夋槸涓涓搴旂敤紼嬪簭鎺ュ彛錛圓PI錛夋爣鍑嗭紝鐢ㄤ互瑙勮寖鍙戝竷鍩虹綰挎т唬鏁版搷浣滅殑鏁板煎簱錛堝傜煝閲忔垨鐭╅樀涔樻硶錛夈傝ョ▼搴忛泦鏈鍒濆彂甯冧簬1979騫達紝騫剁敤浜庡緩絝嬫洿澶х殑鏁板肩▼搴忓寘錛堝侺APACK錛夈傚湪楂樻ц兘璁$畻棰嗗煙錛孊LAS琚騫挎硾浣跨敤銆備緥濡傦紝LINPACK鐨勮繍綆楁垚緇╁垯寰堝ぇ紼嬪害涓婂彇鍐充簬BLAS涓瀛愮▼搴廌GEMM鐨勮〃鐜般備負鎻愰珮鎬ц兘錛屽悇杞紜浠跺巶鍟嗗垯閽堝瑰叾浜у搧瀵笲LAS鎺ュ彛瀹炵幇榪涜岄珮搴︿紭鍖栥
鍐呴儴瀹炵幇浜嗗簳灞備箻娉曡繍綆楋紝NN鐩稿叧綆楁硶娌℃湁瀹炵幇
鍐呴儴瀹炵幇鐨勭畻娉曞寘鎷錛
Intel鏁板︽牳蹇冨嚱鏁板簱錛圡KL錛夋槸涓濂楅珮搴︿紭鍖栥佺嚎紼嬪畨鍏ㄧ殑鏁板︿緥紼嬨佸嚱鏁幫紝闈㈠悜楂樻ц兘鐨勫伐紼嬨佺戝︿笌璐㈠姟搴旂敤銆傝嫳鐗瑰皵 MKL 鐨勯泦緹ょ増鏈鍖呮嫭 ScaLAPACK 涓庡垎甯冨紡鍐呭瓨蹇閫熷倕絝嬪彾杞鎹錛屽苟鎻愪緵浜嗙嚎鎬т唬鏁 (BLAS銆丩APACK 鍜孲parse Solver)銆佸揩閫熷倕絝嬪彾杞鎹銆佺煝閲忔暟瀛 (Vector Math) 涓庨殢鏈哄彿鐮佺敓鎴愬櫒鏀鎸侊紝甯歌丯N綆楁硶濡俁N銆丆NN銆
OPEN AI LAB寮鍙戜簡涓嬈捐交閲忕駭妯″潡鍖栫殑楂樻ц兘紲炵粡緗戠粶鎺ㄧ悊寮曟搸-Tengine錛屼笓闂ㄩ拡瀵笰rm宓屽叆寮忚懼囦紭鍖栵紝鎻愪緵瓚呰繃鎵鏈夊凡鐭ュ紑婧愭嗘灦鐨勬棤涓庝雞姣旂殑鎬ц兘錛屽彲璺ㄥ鉤鍙頒嬌鐢ㄦ敮鎸丄ndroid錛孡inux銆
騫朵笖Tengine妗嗘灦涓嶄緷璧栦簬涓撶敤AI鑺鐗囷紝鐜版湁鐨勬垚鐔熻姱鐗囬氳繃Tengine妗嗘灦鍙浠ユ妸綆楀姏鎸栨帢鍑烘潵錛屽湪鏈鍦拌繘琛屼竴浜汚I搴旂敤鐨勫勭悊錛屼粠鑰屾彁楂樹簡鑺鐗囨ц兘錛屽苟闄嶄綆鎴愭湰銆
Tengine鍚屾椂榪樻敮鎸佸悇綾誨父瑙佸嵎縐紲炵粡緗戠粶錛屽寘鎷琒queezeNet錛孧obileNet錛孉lexNet錛孯esNet絳夛紝鏀鎸佸眰鋙嶅悎銆8浣嶉噺鍖栫瓑浼樺寲絳栫暐銆傚苟涓旈氳繃璋冪敤閽堝逛笉鍚孋PU寰鏋勬灦浼樺寲鐨凥CL搴擄紝灝咥rm CPU鐨勬ц兘鍏呭垎鎸栨帢鍑烘潵銆
閽堝逛笉鍚岀殑妯″瀷錛屽崟鐙瑙f瀽錛屾渶鍚庢帹鐞
ncnn 鏄涓涓涓烘墜鏈虹鏋佽嚧浼樺寲鐨勯珮鎬ц兘紲炵粡緗戠粶鍓嶅悜璁$畻妗嗘灦銆俷cnn 浠庤捐′箣鍒濇繁鍒昏冭檻鎵嬫満絝鐨勯儴緗插拰浣跨敤銆傛棤絎涓夋柟渚濊禆錛岃法騫沖彴錛屾墜鏈虹 cpu 鐨勯熷害蹇浜庣洰鍓嶆墍鏈夊凡鐭ョ殑寮婧愭嗘灦銆傚熀浜 ncnn錛屽紑鍙戣呰兘澶熷皢娣卞害瀛︿範綆楁硶杞繪澗縐繪嶅埌鎵嬫満絝楂樻晥鎵ц岋紝寮鍙戝嚭浜哄伐鏅鴻兘 APP錛屽皢 AI 甯﹀埌浣犵殑鎸囧皷銆俷cnn 鐩鍓嶅凡鍦ㄨ吘璁澶氭懼簲鐢ㄤ腑浣跨敤錛屽 QQ錛孮zone錛屽井淇★紝澶╁ぉP鍥劇瓑銆
鏀鎸佸ぇ閮ㄥ垎甯哥敤鐨 CNN 緗戠粶
Classical CNN: VGG AlexNet GoogleNet Inception ...
Practical CNN: ResNet DenseNet SENet FPN ...
Light-weight CNN: SqueezeNet MobileNetV1/V2/V3 ShuffleNetV1/V2 MNasNet ...
Detection: MTCNN facedetection ...
Detection: VGG-SSD MobileNet-SSD SqueezeNet-SSD MobileNetV2-SSDLite ...
Detection: Faster-RCNN R-FCN ...
Detection: YOLOV2 YOLOV3 MobileNet-YOLOV3 YOLOV4...
Segmentation: FCN PSPNet UNet ...
閽堝逛笉鍚岀殑妯″瀷錛屽崟鐙瑙f瀽錛屾渶鍚庢帹鐞
MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁緇/鎺ㄧ悊妗嗘灦錛屽彲鐢ㄤ簬縐誨姩銆佽竟緙樺拰浜戝満鏅銆侻indSpore鏃ㄥ湪涓烘暟鎹縐戝﹀跺拰綆楁硶宸ョ▼甯堟彁渚涘弸濂借捐″拰楂樻晥鎵ц岀殑寮鍙戠粡楠岋紝涓篈scend AI澶勭悊鍣ㄦ彁渚涙湰鍦版敮鎸侊紝浠ュ強杞紜浠跺崗鍚屼紭鍖栥傚悓鏃訛紝MindSpore浣滀負涓涓鍏ㄧ悆鎬х殑浜哄伐鏅鴻兘寮婧愮ぞ鍖猴紝鏃ㄥ湪榪涗竴姝ユ帹榪涗漢宸ユ櫤鑳借蔣紜浠跺簲鐢ㄧ殑寮鍙戝拰涓板瘜鐢熸佺郴緇.MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁緇/鎺ㄧ悊妗嗘灦錛屽彲鐢ㄤ簬縐誨姩銆佽竟緙樺拰浜戝満鏅銆
Ⅱ 鯤雲科技新一代星空X9加速卡量產,最高4.47倍性能提升,為AI伺服器提供高性能算力支持
在2021年4月17日的第八屆中國(上海)國際技術進出口交易會上,鯤雲科技</以卓越的創新力震撼亮相,推出了新一代的星空X9加速卡,這款高性能利器無疑為AI伺服器市場注入了強勁動力。這款卡的峰值性能達到了驚人的52.4 TOPS,實測性能更是突破性地達到英偉達T4的4.47倍,旨在為AI伺服器提供極致的性能、低延遲和卓越性價比的計算加速解決方案。
牛昕宇博士,作為創始人兼CEO,親自展示了這款高科技新品——星空X9加速卡。它搭載了4顆自主研發的CAISA晶元,全高全長設計,採用了革命性的無風扇被動散熱技術,這在業界是前所未有的。CAISA晶元是鯤雲科技去年6月發布的全球首款定製數據流AI晶元,其晶元利用率的提升幅度高達11.05倍,這意味著在實際應用中,星空X9能夠提供遠超同類產品的有效算力。
經過技術團隊的精心優化,星空X9展現出卓越性能。即使在低於峰值算力的條件下,也能實現英偉達T4的4.47倍實測性能,這一成績在業界獨占鰲頭。在與T4的對比測試中,星空X9在運行ResNet50和YOLO v3等演算法模型時,晶元利用率提升幅度最高達到11.05倍,性能表現更是顯著提升,例如在ResNet50網路上,性能提升1.12倍,YOLOv3和U-Net Instrial檢測分割網路的性能提升更是達到了1.99-4.47倍。在追求極致速度的場景中,X9處理延時最低可降至2.65ms,相比T4的處理速度提升了驚人的35.73倍。
隨著智能化時代的加速,數據中心作為智慧社會的基石,對AI算力的需求日益增長。星空X9的量產,無疑為數據中心提供了強大而靈活的算力支持。不僅如此,現場還展示了星空X3加速卡和星空X6A智能小站等更多AI硬體產品</,以及針對智慧油田、智能安監、智慧電網和智能製造等行業的深度解決方案,全方位展示了鯤雲科技在AI計算領域的領先地位。