Ⅰ 鍚勭畻瀛愬簱瀵笴NN鐨勬敮鎸
OpenBLAS 鏄涓涓浼樺寲鐨 BLAS 搴擄紝鍩轰簬 GotoBLAS2 1.13 BSD 鐗堟湰銆
BLAS锛圔asic Linear Algebra Subprograms 鍩虹绾挎т唬鏁扮▼搴忛泦锛夋槸涓涓搴旂敤绋嬪簭鎺ュ彛锛圓PI锛夋爣鍑嗭紝鐢ㄤ互瑙勮寖鍙戝竷鍩虹绾挎т唬鏁版搷浣滅殑鏁板煎簱锛堝傜煝閲忔垨鐭╅樀涔樻硶锛夈傝ョ▼搴忛泦鏈鍒濆彂甯冧簬1979骞达紝骞剁敤浜庡缓绔嬫洿澶х殑鏁板肩▼搴忓寘锛堝侺APACK锛夈傚湪楂樻ц兘璁$畻棰嗗煙锛孊LAS琚骞挎硾浣跨敤銆備緥濡傦紝LINPACK鐨勮繍绠楁垚缁╁垯寰堝ぇ绋嬪害涓婂彇鍐充簬BLAS涓瀛愮▼搴廌GEMM鐨勮〃鐜般備负鎻愰珮鎬ц兘锛屽悇杞纭浠跺巶鍟嗗垯閽堝瑰叾浜у搧瀵笲LAS鎺ュ彛瀹炵幇杩涜岄珮搴︿紭鍖栥
鍐呴儴瀹炵幇浜嗗簳灞備箻娉曡繍绠楋紝NN鐩稿叧绠楁硶娌℃湁瀹炵幇
鍐呴儴瀹炵幇鐨勭畻娉曞寘鎷锛
Intel鏁板︽牳蹇冨嚱鏁板簱锛圡KL锛夋槸涓濂楅珮搴︿紭鍖栥佺嚎绋嬪畨鍏ㄧ殑鏁板︿緥绋嬨佸嚱鏁帮紝闈㈠悜楂樻ц兘鐨勫伐绋嬨佺戝︿笌璐㈠姟搴旂敤銆傝嫳鐗瑰皵 MKL 鐨勯泦缇ょ増鏈鍖呮嫭 ScaLAPACK 涓庡垎甯冨紡鍐呭瓨蹇閫熷倕绔嬪彾杞鎹锛屽苟鎻愪緵浜嗙嚎鎬т唬鏁 (BLAS銆丩APACK 鍜孲parse Solver)銆佸揩閫熷倕绔嬪彾杞鎹銆佺煝閲忔暟瀛 (Vector Math) 涓庨殢鏈哄彿鐮佺敓鎴愬櫒鏀鎸侊紝甯歌丯N绠楁硶濡俁N銆丆NN銆
OPEN AI LAB寮鍙戜簡涓娆捐交閲忕骇妯″潡鍖栫殑楂樻ц兘绁炵粡缃戠粶鎺ㄧ悊寮曟搸-Tengine锛屼笓闂ㄩ拡瀵笰rm宓屽叆寮忚惧囦紭鍖栵紝鎻愪緵瓒呰繃鎵鏈夊凡鐭ュ紑婧愭嗘灦鐨勬棤涓庝鸡姣旂殑鎬ц兘锛屽彲璺ㄥ钩鍙颁娇鐢ㄦ敮鎸丄ndroid锛孡inux銆
骞朵笖Tengine妗嗘灦涓嶄緷璧栦簬涓撶敤AI鑺鐗囷紝鐜版湁鐨勬垚鐔熻姱鐗囬氳繃Tengine妗嗘灦鍙浠ユ妸绠楀姏鎸栨帢鍑烘潵锛屽湪鏈鍦拌繘琛屼竴浜汚I搴旂敤鐨勫勭悊锛屼粠鑰屾彁楂樹簡鑺鐗囨ц兘锛屽苟闄嶄綆鎴愭湰銆
Tengine鍚屾椂杩樻敮鎸佸悇绫诲父瑙佸嵎绉绁炵粡缃戠粶锛屽寘鎷琒queezeNet锛孧obileNet锛孉lexNet锛孯esNet绛夛紝鏀鎸佸眰铻嶅悎銆8浣嶉噺鍖栫瓑浼樺寲绛栫暐銆傚苟涓旈氳繃璋冪敤閽堝逛笉鍚孋PU寰鏋勬灦浼樺寲鐨凥CL搴擄紝灏咥rm CPU鐨勬ц兘鍏呭垎鎸栨帢鍑烘潵銆
閽堝逛笉鍚岀殑妯″瀷锛屽崟鐙瑙f瀽锛屾渶鍚庢帹鐞
ncnn 鏄涓涓涓烘墜鏈虹鏋佽嚧浼樺寲鐨勯珮鎬ц兘绁炵粡缃戠粶鍓嶅悜璁$畻妗嗘灦銆俷cnn 浠庤捐′箣鍒濇繁鍒昏冭檻鎵嬫満绔鐨勯儴缃插拰浣跨敤銆傛棤绗涓夋柟渚濊禆锛岃法骞冲彴锛屾墜鏈虹 cpu 鐨勯熷害蹇浜庣洰鍓嶆墍鏈夊凡鐭ョ殑寮婧愭嗘灦銆傚熀浜 ncnn锛屽紑鍙戣呰兘澶熷皢娣卞害瀛︿範绠楁硶杞绘澗绉绘嶅埌鎵嬫満绔楂樻晥鎵ц岋紝寮鍙戝嚭浜哄伐鏅鸿兘 APP锛屽皢 AI 甯﹀埌浣犵殑鎸囧皷銆俷cnn 鐩鍓嶅凡鍦ㄨ吘璁澶氭惧簲鐢ㄤ腑浣跨敤锛屽 QQ锛孮zone锛屽井淇★紝澶╁ぉP鍥剧瓑銆
鏀鎸佸ぇ閮ㄥ垎甯哥敤鐨 CNN 缃戠粶
Classical CNN: VGG AlexNet GoogleNet Inception ...
Practical CNN: ResNet DenseNet SENet FPN ...
Light-weight CNN: SqueezeNet MobileNetV1/V2/V3 ShuffleNetV1/V2 MNasNet ...
Detection: MTCNN facedetection ...
Detection: VGG-SSD MobileNet-SSD SqueezeNet-SSD MobileNetV2-SSDLite ...
Detection: Faster-RCNN R-FCN ...
Detection: YOLOV2 YOLOV3 MobileNet-YOLOV3 YOLOV4...
Segmentation: FCN PSPNet UNet ...
閽堝逛笉鍚岀殑妯″瀷锛屽崟鐙瑙f瀽锛屾渶鍚庢帹鐞
MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁缁/鎺ㄧ悊妗嗘灦锛屽彲鐢ㄤ簬绉诲姩銆佽竟缂樺拰浜戝満鏅銆侻indSpore鏃ㄥ湪涓烘暟鎹绉戝﹀跺拰绠楁硶宸ョ▼甯堟彁渚涘弸濂借捐″拰楂樻晥鎵ц岀殑寮鍙戠粡楠岋紝涓篈scend AI澶勭悊鍣ㄦ彁渚涙湰鍦版敮鎸侊紝浠ュ強杞纭浠跺崗鍚屼紭鍖栥傚悓鏃讹紝MindSpore浣滀负涓涓鍏ㄧ悆鎬х殑浜哄伐鏅鸿兘寮婧愮ぞ鍖猴紝鏃ㄥ湪杩涗竴姝ユ帹杩涗汉宸ユ櫤鑳借蒋纭浠跺簲鐢ㄧ殑寮鍙戝拰涓板瘜鐢熸佺郴缁.MindSpore鏄涓涓鏂扮殑寮婧愭繁搴﹀︿範璁缁/鎺ㄧ悊妗嗘灦锛屽彲鐢ㄤ簬绉诲姩銆佽竟缂樺拰浜戝満鏅銆
Ⅱ 鲲云科技新一代星空X9加速卡量产,最高4.47倍性能提升,为AI服务器提供高性能算力支持
在2021年4月17日的第八届中国(上海)国际技术进出口交易会上,鲲云科技</以卓越的创新力震撼亮相,推出了新一代的星空X9加速卡,这款高性能利器无疑为AI服务器市场注入了强劲动力。这款卡的峰值性能达到了惊人的52.4 TOPS,实测性能更是突破性地达到英伟达T4的4.47倍,旨在为AI服务器提供极致的性能、低延迟和卓越性价比的计算加速解决方案。
牛昕宇博士,作为创始人兼CEO,亲自展示了这款高科技新品——星空X9加速卡。它搭载了4颗自主研发的CAISA芯片,全高全长设计,采用了革命性的无风扇被动散热技术,这在业界是前所未有的。CAISA芯片是鲲云科技去年6月发布的全球首款定制数据流AI芯片,其芯片利用率的提升幅度高达11.05倍,这意味着在实际应用中,星空X9能够提供远超同类产品的有效算力。
经过技术团队的精心优化,星空X9展现出卓越性能。即使在低于峰值算力的条件下,也能实现英伟达T4的4.47倍实测性能,这一成绩在业界独占鳌头。在与T4的对比测试中,星空X9在运行ResNet50和YOLO v3等算法模型时,芯片利用率提升幅度最高达到11.05倍,性能表现更是显著提升,例如在ResNet50网络上,性能提升1.12倍,YOLOv3和U-Net Instrial检测分割网络的性能提升更是达到了1.99-4.47倍。在追求极致速度的场景中,X9处理延时最低可降至2.65ms,相比T4的处理速度提升了惊人的35.73倍。
随着智能化时代的加速,数据中心作为智慧社会的基石,对AI算力的需求日益增长。星空X9的量产,无疑为数据中心提供了强大而灵活的算力支持。不仅如此,现场还展示了星空X3加速卡和星空X6A智能小站等更多AI硬件产品</,以及针对智慧油田、智能安监、智慧电网和智能制造等行业的深度解决方案,全方位展示了鲲云科技在AI计算领域的领先地位。