❶ 國產全功能GPU「蘇堤」發布
國產全功能GPU「蘇堤」發布
國產全功能GPU「蘇堤」發布,首款全功能國產智能顯卡發布,這也是其基於MUSA統一系統架構的第一款桌面級顯卡,主打桌面級PC、工作站市場。國產全功能GPU「蘇堤」發布。
近兩年頻繁獲得巨額融資的中國初創GPU公司正陸續取得進展。
3月30日,摩爾線程在北京發布其首款GPU晶元,並面向個人電腦和數據中心用途推出對應的顯卡產品。
摩爾線程成立於2020年10月,總部位於北京,主要研發GPU晶元。去年11月,摩爾線程宣布完成A輪20億元融資,由上海國盛資本、五源資本、中銀國際旗下渤海中盛基金聯合領投,建銀國際、前海母基金、招商證券和湖北高質量發展產業基金等九家知名機構聯合參投。摩爾線程創始人兼CEO張建中曾任英偉達全球副總裁、中國區總經理。
據張建中介紹,此次摩爾線程發布首個GPU架構「MUSA」,以及基於該架構的首款GPU晶元「蘇堤」和顯卡產品,搭配摩爾線程自研物理模擬系統以及多種GPU應用解決方案,有助於推動「元宇宙」應用落地。
張建中稱,「蘇堤」是全功能GPU晶元,可用於游戲、科學計算、3D模擬等用途,而MTT S60台式機顯卡基於「蘇堤」核心晶片製成,單精度算力最高可達6TFlops,配置8GB顯存,搭配MUSA軟體運行庫和驅動程序等軟體工具。
發布會上,張建中展示了使用MTT S60顯卡玩《英雄聯盟》的游戲情景,並稱該顯卡為首款能打《英雄聯盟》的國產顯卡,支持所有主流國產PC操作系統。
面向伺服器市場,摩爾線程則推出了MTT S2000顯卡,單精度浮點計算達12TFlops,支持32GB顯存和PyTorch、TensorFlow等AI框架,支持虛擬化等技術,可用於支持雲游戲、雲渲染等應用。摩爾線程稱已與多家OEM廠商合作適配顯卡產品。
過去兩年,GPU成為熱門賽道,除摩爾線程外,沐曦集成電路、天數智芯、壁仞科技、登臨科技等都是這個賽道的高端玩家,每輪融資動輒上億元,尤其是吸金王壁仞科技成立三年多累計融資超47億元。市場期待從中可以跑出「中國英偉達」。
然而,GPU作為「大晶元」,一直由海外巨頭長期佔領市場,國內技術積累極為匱乏,研發難度極大。尤其是全功能GPU領域,國內具備圖形、科學計算等相關專業知識的'晶元人才儲備不足。因此,像登臨科技等企業選擇GPU的AI計算方向進行研發,即GPGPU(通用計算GPU),專注於數據中心領域。
也有部分企業選擇向外購買IP(知識產權),降低開發難度。芯動科技於去年發布的GPU「風華1號」,其IP購買自英國GPU技術授權公司Imagination。此次摩爾線程並未透露其IP是自研還是來自授權。
隨著國內GPU初創企業的產品陸續面試,如何吸引客戶進行驗證、測試,搭建生態系統,將成為包括摩爾線程在內的GPU公司們下一個關鍵命題。
3月30日,摩爾線程正式發布了首款全功能國產智能顯卡「MTT S60」,這也是其基於MUSA統一系統架構的第一款桌面級顯卡,主打桌面級PC、工作站市場。
同時發布的還有面向數據中心的MTT S200,以及GPU物理引擎AlphaCore、數字人解決方案DIGITALME。
摩爾線程(Moore Threads)成立於2020年10月,創始人兼CEO張建中是原NVIDIA全球副總裁、中國區總經理,擁有真正世界級的、能夠覆蓋GPU研發設計、生產製造、市場銷售、服務支持等完整成熟的團隊,致力於研發設計國產全功能GPU晶元及相關產品,面向數據中心、邊緣計算、高性能PC、工作站。
摩爾線程的MUSA統一系統架構包括統一的編程模型、軟體運行庫、驅動程序框架、指令集架構、晶元架構,應用具備廣泛的可移植性,可以同時運行在雲端、邊緣計算平台上,適用於圖形、計算、多媒體、人工智慧等。
摩爾線程MTT S60顯卡核心代號「蘇堤」,採用12nm工藝,包含2048個MUSA核心,內置現代圖形渲染引擎、智能多媒體引擎、AI計算加速引擎、物理模擬、科學計算四大引擎,單精度算力最高6TFlops,搭配8GB LPDDR4X顯存。
它支持DirectX、Vulkan、OpenGL、OpenGL ES等圖形API介面,可滿足GIS、BIM、設計、主流游戲、原生Android、三維渲染等應用對圖形性能的需求。
同時有基於全棧功能GPU的通用計算能力,可加速DBNet、CRNN、Yolo、Restnet50/101等AI模型推理計算,支持OCR、圖像處理、視頻增強等AI場景。
視頻編解碼不僅支持H.264、H.265(HEVC),還業界首次加入了最新的AV1,並有三個DP 1.4介面,可輸出8K、4K畫面。
MTT S60顯卡還提供了一站式的PES圖形化控制中心,不僅可以監控GPU運行狀態、設置2D/3D輸出,還支持無人自動驅動更新。
CPU平台支持x86、ARM、LoongArch指令集,已適配Intel、AMD、飛騰、龍芯、兆芯、海光等平台,操作系統支持Windows 10、麒麟、統信、多種Linux發行版,比如可以在Windows下玩《英雄聯盟》等。
目前,摩爾線程MTT S60顯卡的PC合作夥伴包括聯想、浪潮、清華同方、長城超雲等。
行業應用合作夥伴包括金山辦公、小魚易連、太極圖形、中望CAD、廣聯達、D5、蒼穹數碼、超圖軟體、易智瑞、中地數碼、OSG社區、Gala Sports等等。
AlphaCore是摩爾線程獨立設計研發的下一代多平台GPU物理模擬系統,能夠對物理世界中復雜的固體、柔性體、流體等效果,進行超高精度的物理模擬處理,通過運算模擬,讓布料、毛發、數字角色軟體肌肉組織的物理交互效果,達到電影級別一般的真實。
AlphaCore物理引擎基於材料力學模塊,可以實現豐富的材料交互動態效果,包括彈塑性材料、各項異性材料、羽絨服、皮革、絲綢、綿綸等。
同時,摩爾線程基於AlphaCore開發了一系列工具,包括布料毛發製作工具VeraFiber、氣體流體模擬工具Catalys、生物仿生計算工具Bionics。
對比Houdini Vellum的軟體毛發布料、PyroFX 的煙火流體,AlphaCore物理引擎都有5~10倍的性能提升。
AlphaCore也提供多平台兼容版本,最大程度兼容Vulkan、CUDA、DirectX等現有的運行時API環境,及Houdini、Unreal、Unity、D5等游戲引擎和設計軟體。
在今天的摩爾線程 2022 春季發布會上,摩爾線程創始人兼 CEO 張建中發布了公司自主研發的首款全功能 GPU 產品「蘇堤」,面向元計算提供元驅動力。
據介紹,「蘇堤」基於摩爾線程最新推出的統一系統架構「MUSA」研發,具有現代圖形渲染、AI 計算加速以及科學計算機物理模擬等功能引擎。是第一款支持 AV1 編解碼的 GPU,支持視頻雲、直播、8K 游戲等智能多媒體運用。
據介紹,摩爾線程 GPU「蘇堤」已開始適配國產主流 CPU 和操作系統,目前摩爾線程已與數百個生態夥伴建立合作關系,共同推進國產 GPU 應用軟體的聯合開發、性能優化和應用創新。
去年 11 月,摩爾線程宣布,不到 300 天,首顆國產全功能 GPU 研製成功,同時完成 A 輪融資。在完成融資的同時,摩爾線程還公布首顆國產全功能 GPU 晶元如期研製成功。
摩爾線程稱,擁有完整的設計現代全功能 GPU 體系結構的軟硬體設計團隊,晶元內置自主研發的 3D 圖形計算核芯、AI 訓練與推理計算核芯、高性能並行計算核芯、超高清視頻編解碼計算等核芯。
❷ 手機處理器排行靠前的有哪些
目前手機處理器靠前的有三顆處理器,蘋果的A12,驍龍的855,麒麟的980。
A12
先說說蘋果的A12吧,大家都知道iPhone這個牌子一直都可以說是最好的手機,這其中最主要的就是他的處理器好,A12採用的都是蘋果公司的尖端科技,基於7mm製作,相當的精細,原本就有很深的底蘊,之前的A11性能就已經非常好了,這顆A12比A11還要強上個20~30%。
這是我國華為公司獨立研發的晶元,說實話國產晶元沒藉助外力能研究到這么厲害,我覺得是非常了不起了,這顆980也是可以和855相抗衡的,980的最高主頻可以達到2.8GHz,再加上華為公司特有的CPU Turbo技術,那這個主頻還是可以往上提一提的。
❸ 詳解英偉達晶元在自動駕駛的軟體移植設計開發
英偉達DRIVE Orin系列晶元因其卓越的算力、性能與兼容性,以及豐富的I/O介面,非常適合應用於自動駕駛系統。該系列晶元的頂層SOC架構主要由CPU、GPU和硬體加速器組成。具體分析如下:
1、CPU:
Orin-x的CPU由12個Cortex-A78構成,提供通用計算和高速處理能力。其中,基於功能安全設計的Arm Cortex R52提供了獨立的片上計算資源,簡化了功能安全等級的實現,無需額外的CPU晶元。
CPU支持特性包括調試、電源管理、中斷控制和錯誤檢測與報告。CPU還負責整體性能監控,性能監控單元提供六種計算能力,用於收集統計值和計算處理器及存儲系統的性能。
2、GPU:
NVIDIA Ampere GPU採用先進的並行處理架構,支持CUDA語言開發。CUDA提供豐富的工具鏈,包括Tensor Core和RT Core的應用程序介面,以及深度學習優化器和實時運行系統,實現低延遲和高效輸出。
Ampere GPU在圖像處理方面提供卓越能力,包括光流追蹤、高解析度圖像處理等。它通過細粒度結構化稀疏性提升吞吐量,減少內存消耗,浮點處理能力為每個時鍾周期提供2倍的CUDA浮點性能。
3、特定域硬體加速器:
Orin-x配備了特定域硬體加速器(DSAs、DLA、PVA),用於實現計算引擎的高效、低功耗特性。計算機視覺和深度學習簇包括PVA和DLA引擎。
PVA是一種專為計算機視覺、ADAS、ADS、虛擬現實系統設計的指令矢量處理器,具有低功耗和延遲性。Orin-x中的Cortex-R5子系統用於控制PVA和任務監控。
DLA是一個固定功能引擎,用於加速卷積神經網路推理操作,優化結構化稀疏、深度卷積等,實現高效率。
為了有效利用英偉達GPU的算力進行計算機視覺開發,GPU架構被設計為適應AI領域的並行計算需求。AI演算法的並行結構使得GPU在深度學習、機器學習和超級計算方面具有先天優勢。
英偉達通過CPU+GPU+DPU形成產品矩陣,優化數據中心性能。Bluefield DPU和Grace CPU的引入解決了晶元內部帶寬和系統級互聯問題,提升了整體硬體性能。
Orin系列晶元內部的GPC包含了光柵引擎(ROP)、紋理處理集群(TPC)等組件,用於實現圖像處理核心函數。每個TPC包含SM(流式多媒體處理器)、紋理單元和RT Core等關鍵組件。
在GPC中,SM執行像素級/矢量級/幾何陰影計算,而紋理結構單元負責濾波和數據載入/存儲。SFUs處理內插指令,Tensor Cores加速矩陣乘法,RTcore優化光流追蹤性能。
多元引擎處理用於頂點提取、鑲嵌、視角轉換等任務,SM幾何級、像素級處理確保高性能。Ampere GPU的優化降低了功耗,保持了高性能。
CUDA架構作為連接AI的中心節點,CUDA+GPU系統推動了AI領域的發展。搭載英偉達GPU的硬體通過CUDA軟體系統及CUDA-XAI庫,為自動駕駛系統的機器學習、深度學習訓練和推理提供了對應工具鏈。
CUDA架構包括開發庫、運行期環境和驅動部分。CUDA庫提供了應用開發庫,如高度優化的通用數學庫,支持數據類型定義、計算、內存管理等功能。CUDA驅動實現硬體設備的抽象訪問。
在CUDA架構下,程序分為host端和device端,host端負責控制GPU執行和調度任務,device端執行計算任務。GPU在計算密集型任務中表現優異,而CPU則負責控制和簡單的計算。
在CUDA編程開發中,應用標准語言或專用語言(如C++、Fortran、OpenCL)進行開發。OpenCL可實現GPU計算能力調用,但CUDA在性能和優化方面更優。CUDA庫支持多種語言,提供性能優化和代碼移植性。
通過CUDA優化數據存取,改進DRAM讀寫靈活性,實現GPU與CPU機制相吻合,並提供片上共享內存,減少內存帶寬依賴。CUDA可實現數據復制到GPU內存,然後進行計算,最後復制回系統內存。
英偉達不斷優化CUDA開發庫及驅動系統,支持操作系統多任務機制管理GPU訪問和圖形程序運行庫,確保GPU計算特性的直觀實現。
在CUDA編程中,使用標准語言並行開發,針對性能優化使用專用語言。OpenCL與CUDA架構之間存在API與執行架構的關系。通過啟用增量性能優化,平衡性能、生產率和代碼移植性。
CUDA架構優化後,相較於CPU和GPU在軟體編程上實現顯著性能提升。CUDA通過優化計算方法,減少計算量,提高計算效率。
CUDA常用庫包括cuBLASLt、cuFFT、cuSPARSE等,提供混合精度運算、64位整數支持、稀疏矩陣乘法優化等功能。CUDA也加入了延遲載入技術,節省設備和主機內存,縮短演算法執行時間。
綜上所述,英偉達DRIVE Orin系列晶元及其軟體架構在自動駕駛系統中發揮關鍵作用,通過GPU、CUDA和各種庫的優化,實現了高性能、低延遲和高效的計算能力,為自動駕駛技術的發展提供了堅實基礎。