⑴ 英特爾、AMD、英偉達,三大廠商同台競技混合GPU+CPU
如果說英偉達的Grace CPU超級晶元的架構是CPU+GPU是巧合,那麼英特爾和AMD推出的Falcon Shores XPU晶元、Instinct MI300晶元同樣是CPU+GPU結構時,CPU+GPU一體的架構就很難稱之為巧合了。
更為「碰巧」的是,以上三種晶元其都是用於數據中心的場景,這就意味著在未來兩年內,AMD、英偉達和英特爾都將擁有混合CPU+GPU晶元進入數據中心市場。
可以說CPU+GPU的形式已經成為未來晶元設計的趨勢。
英特爾推出XPU
英特爾宣布了一款特殊的融合型處理器「Falcon Shores」,官方稱之為XPU。其核心是一個新的處理器架構,將英特爾的x86 CPU和Xe GPU硬體置入同一顆Xeon晶元中。
Falcon Shores晶元基於區塊(Tile)設計,具備非常高的伸縮性、靈活性,可以更好地滿足HPC、AI應用需求。
按照英特爾給出的數字,對比當今水平,Falcon Shores的能耗比提升超過5倍,x86計算密度提升超過5倍,內存容量與密度提升超過5倍。
Falcon Shores晶元將在2024年推出。
AMD推出APU
在數據中心領域,AMD同樣展示其野心。
APU是AMD傳統上用於集成顯卡的客戶端CPU的「加速處理單元」命名法。自2006年Opteron CPU的鼎盛時期以來,AMD一直夢想著使用APU,並於2010年開始推出第一款用於PC的APU。隨後在索尼Play Station4和5以及微軟Xbox XS中推出了定製APU系列 游戲 機,也推出了一些Opteron APU——2013年的X2100和2017年的X3000。
最近,AMD公布的路線圖中顯示,其將在2023年推出Instinct MI300晶元,這是AMD推出的第一款百億億次APU,AMD將其稱為「世界上第一個數據中心APU」。
而這個APU是一種將CPU和GPU內核組合到一個封裝中的晶元,仔細來說是將基於Zen4的Epyc CPU與使用其全新CDNA3架構的GPU相結合。
AMD表示Instinct MI300預計將比其Instinct MI250X提供超過8倍的AI訓練性能提升,與支持Instinct MI200系列的CDNA2 GPU架構相比,用於Instinct MI300的CDNA3架構將為AI工作負載提供超過5倍的性能功耗比提升。
Instinct MI300將於2023年問世。
英偉達Grace超級晶元
一直專注於GPU設計的英偉達,在去年宣布進軍基於Arm架構的CPU時引發了一陣轟動。在今年3月,英偉達推出解決HPC和大規模人工智慧應用程序的Grace Hopper超級晶元。這款晶元將NVIDIA Hopper GPU與Grace CPU通過NVLink-C2C結合在一個集成模塊中。
CPU+GPU的Grace Hopper核心數減半,LPDDR5X內存也只有512GB,但多了顯卡的80GBHBM3內存,總帶寬可達3.5TB/s,代價是功耗1000W,每個機架容納42個節點。
英偉達同樣承諾在2023年上半年推出其超級晶元。
從推出的時間節點來看,英特爾Falcon Shores晶元、AMD Instinct MI300、英偉達Grace Hopper超級晶元分別在2024年、2023年、2023年上半年推出。
CPU+GPU的形式,為什麼引起了三大巨頭的興趣,紛紛將其布局於數據中心?
首先,在數字經濟時代,算力正在成為一種新的生產力,廣泛融合到 社會 生產生活的各個方面。數據中心是算力的物理承載,是數字化發展的關鍵基礎設施。全球數據中心新增穩定,2021年全球數據中戲市場規模超過679億美元,較2020年增長9.8%。因此,具有巨大市場的數據中心早已被 科技 巨頭緊盯。
其次,數據中心會收集大量的數據,因此需要搭建於數據中心的晶元具有極大算力,將CPU與GPU組合可以提高算力。英特爾高級副總裁兼加速計算系統和圖形(AXG)集團總經理Raja Kori的演講中提及,如果想要成功獲得HPC市場,就需要晶元能夠處理海量的數據集。盡管,GPU具有強大的計算能力,能夠同時並行工作數百個的內核,但如今獨立的GPU仍然有一大缺陷,就是大的數據集無法輕松放入獨立GPU內存里,需要耗費時間等待顯存數據緩慢刷新。
特別是內存問題,將CPU與GPU放入同一架構,能夠消除冗餘內存副本來改善問題,處理器不再需要將數據復制到自己的專用內存池來訪問/更改該數據。統一內存池還意味著不需要第二個內存晶元池,即連接到CPU的DRAM。例如,Instinct MI300將把CDNA3 GPU小晶元和Zen4 CPU小晶元組合到一個處理器封裝中,這兩個處理器池將共享封裝HBM內存。
英偉達官方表示,使用NVLink-C2C互連,Grace CPU將數據傳輸到Hopper GPU的速度比傳統CPU快15倍;但對於數據集規模超大的場景來說,即使有像NVLink和AMD的Infinity Fabric這樣的高速介面,由於HPC級處理器操作數據的速度非常快,在CPU和GPU之間交換數據的延遲和帶寬代價仍然相當高昂。因此如果能盡可能縮短這一鏈路的物理距離,就可以節約很多能源並提升性能。
AMD表示,與使用分立CPU和GPU的實現相比,該架構的設計將允許APU使用更低的功耗;英特爾同樣表示,其Falcon Shores晶元將顯著提高帶寬、每瓦性能、計算密度和內存容量。
整合多個獨立組件往往會帶來很多長期收益,但並不只是將CPU與GPU簡單整合到一顆晶元中。英特爾、英偉達及AMD的GPU+CPU均是選擇了Chiplet方式。
傳統上,為了開發復雜的 IC 產品,供應商設計了一種將所有功能集成在同一晶元上的晶元。在隨後的每一代中,每個晶元的功能數量都急劇增加。在最新的 7nm 和 5nm 節點上,成本和復雜性飆升。
而使用Chiplet設計,將具有不同功能和工藝節點的模塊化晶元或小晶元封裝在同一晶元,晶元客戶可以選擇這些小晶元中的任何一個,並將它們組裝在一個先進的封裝中,從而產生一種新的、復雜的晶元設計,作為片上系統 (SoC) 的替代品。
正是由於小晶元的特性,三家巨頭在自己發展多晶元互連的同時,還展開了定製服務。
英特爾在發布Falcon Shores時介紹,其架構將使用Chiplet方法,採用不同製造工藝製造的多個晶元和不同的處理器模塊可以緊密地塞在一個晶元封裝中。這使得英特爾可以在其可以放入其晶元的CPU、GPU、I/O、內存類型、電源管理和其他電路類型上進行更高級別的定製。
最特別的是,Falcon Shores可以按需配置不同區塊模塊,尤其是x86CPU核心、XeGPU核心,數量和比例都非常靈活,就看做什麼用了。
目前,英特爾已開放其 x86 架構進行許可,並制定了Chiplet策略,允許客戶將 Arm 和 RISC-V 內核放在一個封裝中。
最近,AMD同樣打開了定製的大門。AMD首席技術官Mark Papermaster在分析師日會議上表示:「我們專注於讓晶元更容易且更靈活實現。」
AMD允許客戶在緊湊的晶元封裝中實現多個芯粒(也稱為chiplet或compute tiles )。AMD已經在使用tiles,但現在AMD允許第三方製造加速器或其他晶元,以將其與x86 CPU和GPU一起包含在其2D或3D封裝中。
AMD的定製晶元戰略將圍繞新的Infinity Architecture 4.0展開,它是晶元封裝中芯粒的互連。專有的Infinity結構將與CXL 2.0互連兼容。
Infinity互連還將支持UCIe(Universal Chiplet Interconnect Express)以連接封裝中的chiplet。UCIe已經得到英特爾、AMD、Arm、谷歌、Meta等公司的支持。
總體而言,AMD的伺服器GPU軌跡與英特爾、英偉達非常相似。這三家公司都在向CPU+GPU組合產品方向發展,英偉達的GraceHopper(Grace+H100)、英特爾的Falcon Shores XPU(混合和匹配CPU+GPU),現在MI300在單個封裝上同時使用CPU和GPU小晶元。在所有這三種情況下,這些技術旨在將最好的CPU和最好的GPU結合起來,用於不完全受兩者約束的工作負載。
市場研究公司Counterpoint Research的研究分析師Akshara Bassi表示:「隨著晶元面積變得越來越大以及晶圓成品率問題越來越重要,多晶元模塊封裝設計能夠實現比單晶元設計更佳的功耗和性能表現。」
Chiplet將繼續存在,但就目前而言,該領域是一個孤島。AMD、蘋果、英特爾和英偉達正在將自研的互連設計方案應用於特定的封裝技術中。
2018 年,英特爾將 EMIB(嵌入式多矽片)技術升級為邏輯晶圓 3D 堆疊技術。2019 年,英特爾推出 Co-EMIB 技術,能夠將兩個或多個 Foveros 晶元互連。
AMD率先提出Chiplet模式,在2019年全面採用小晶元技術獲得了技術優勢。Lisa Su 在演講時表達了未來的規劃,「我們與台積電就他們的 3D 結構密切合作,將小晶元封裝與晶元堆疊相結合,為未來的高性能計算產品創建 3D 小晶元架構。」
今年 3 月 2 日,英特爾、AMD、Arm、高通、台積電、三星、日月光、谷歌雲、Meta、微軟等十大巨頭宣布成立 Chiplet 標准聯盟,推出了通用小晶元互連標准 (UCIe),希望將行業聚合起來。
迄今為止,只有少數晶元巨頭開發和製造了基於Chiplet的設計。由於先進節點開發晶元的成本不斷上升,業界比以往任何時候都更需要Chiplet。在多晶元潮流下,下一代頂級晶元必然也將是多晶元設計。