Ⅰ 從計算機硬體設計的角度分析如何提供更為豐富的算力
自上世紀90年代互聯網技術誕生以來,移動互聯網、雲計算、大數據、人工智慧等新一代信息技術的不斷發展和逐步成熟,並日益深入的滲透到經濟社會的各個領域,2020年全球范圍內爆發的新冠疫情又進一步加速了這一趨勢,數字經濟已經成為世界經濟發展的新階段,即世界經濟發展已經進入數字經濟時代。
黨中央、國務院和各級政府高度重視數字經濟的發展。從2015年《中國製造2025》、《促進大數據發展行動綱要》等政策出台以來,中央和各級地方陸續以推出系列數字經濟發展的措施,並支持雄安新區、浙江、福建等六個地區建設國家數字經濟創新發展試驗區,支持北京、上海、深圳、西安等地建設國家新一代人工智慧創新發展試驗區。2020年國家進一步提出加強新型基礎設施建設,並明確將數據作為一種新型生產要素寫入政策文件,這些將為數字經濟的發展奠定更加堅實的基礎。
農業經濟時代,土地、水源和工具是關鍵資源。工業經濟時代,能源、原材料、機器設備和生產工藝等是關鍵資源。那數字經濟時代的關鍵資源是什麼呢?數字經濟時代的關鍵資源是數據、算力和演算法。數據是數字經濟時代的原材料,各種經濟活動中都在源源不斷的產生的數據,越來越多的組織也將數據當作一種資產,在政策層面數據已經成為一種新型生產要素。算力相當於數字經濟時代的機器設備和生產力,面向各種場景的數據產品或應用都離不開算力的加工和計算,而且對算力的需求和要求也越來越高。演算法是數字經濟時代的生產工藝,面向圖像、語音、自然語言處理等不同的應用場景和領域的演算法也層出不窮,演算法的提升和改進可以提高算力的效率和更多的挖掘數據價值。
本文重點分析算力方面內容,介紹算力市場總體情況,當前算力發展的特點和趨勢,以及重點算力供應方式等。
一、算力需求快速增長,算力投資具有多重經濟價值
算力即計算能力,核心是CPU、GPU、NPU、MCU等各類晶元,具體由計算機、伺服器、高性能計算集群和各類智能終端等承載。數字經濟時代,數據的爆炸式增長,演算法的復雜程度不斷提高,對算力需求越來越高。算力是數字經濟發展的基礎設施和核心生產力,對經濟發展具有重要作用,根據IDC與浪潮聯合發布的《2020全球計算力指數評估報告》,計算力指數平均每提高1點,數字經濟和GDP將分別增長3.3‰和1.8‰。
隨著數字經濟的不斷發展,人工智慧、物聯網、區塊鏈、AR/VR 等數字經濟的關鍵領域對算力的需求也將呈爆炸式增長。根據華為發布的《泛在算力:智能社會的基石》報告,預計到2030年人工智慧、物聯網、區塊鏈、AR/VR 等總共對算力的需求將達到3.39萬EFLOPS,並且將共同對算力形成隨時、隨地、隨需、隨形 (Anytime、Anywhere、AnyCapacity、Any Object) 的能力要求,其中人工智慧算力將超過1.6萬EFLOPS,接近整體算力需求的一半。OpenAI開發的GPT-3模型涉及1750億個參數,對算力的需求達到3640PFLOPS,目前國內也有研究團隊在跟進中文GPT-3模型的研究。
算力投資具有多重經濟價值,不僅直接帶動伺服器行業及上游晶元、電子等行業的發展,而且算力價值的發揮將帶動各行業轉型升級和效率提升等,帶來更大的間接經濟價值。根據《泛在算力:智能社會的基石》報告,每投入1美元算力即可以帶動晶元、伺服器、數據中心、智能終端、高速網路等領域約4.7美元的直接產業產值增長;在傳統工廠改造為智能化工廠的場景下,每1美元的算力投入,可以帶動10美元的相關產值提升。
二、算力發展的特點及趨勢
隨著數據規模的增加和演算法復雜度的提升,以及應用多樣性的不斷豐富,對算力提出的要求也越來越高,當前算力發展呈現出三方面的特點,一是多種架構百花齊放的狀態,二是中心化的算力與邊緣終端算力快速發展,三是專用算力日漸成勢。
近年來多種算力架構並存並快速發展。曾經x86架構的算力占絕對優勢,英特爾和AMD基本壟斷了X86算力架構市場,海光信息通過跟AMD合作獲得x86架構的授權;如今基於ARM架構的算力份額不斷擴大,特別是在移動端ARM架構算力成為主流,華為海思等主要產品是基於ARM架構,另外天津飛騰的產品也是基於ARM架構。隨著人工智慧等算力需求的不斷增加,GPU算力的需求不斷增加,英偉達在GPU算力市場佔有絕對優勢,AMD也分了一杯羹,疊加比特幣挖礦算力需求,導致市場上GPU卡供不應求。近幾年國內也出現幾個GPU方面的創業團隊,如寒武紀、登臨科技、燧原科技等。此外,Risc-V、存算一體化架構、類腦架構等算力也不斷涌現,不過這些算力剛剛起步,在應用生態等方面還需要一定較長的培育過程。
中心化算力和邊緣終端算力快速發展。隨著7nm製程日漸成熟,基於7nm製程的CPU、GPU等算力性能得到極大提升,目前7nm製程算力主要是中心化算力,移動端智能手機的處理器算力部分也已經採用7nm製程。台積電的7nm製程已經實現規模化,並開始攻關3nm工藝製程;中芯國際7nm工藝製程仍在技術攻關當中。隨著5G及物聯網應用的不斷增加,邊緣終端算力的需求日益增加,特別是自動駕駛、智慧安防、智慧城市等領域算力需求。地平線自動駕駛晶元已經量產,英偉達jetson產品在嵌入式終端產品應用廣泛,其他針對特定領域專用邊緣終端晶元創業公司層出不窮。
針對圖像、語音等特定領域的專用算力日漸成勢。一方面是晶元工藝製程越來越逼近摩爾定律的極限,另一方面是物聯網智能終端對功耗的要求等,針對特定領域的專用晶元層出不窮,並且越來越多的巨頭參與其中。谷歌的TPU專為機器學習定製的算力,阿里平頭哥的含光NPU專為神經網路定製的算力,賽靈思的FPGA算力,網路研發針對語音領域的鴻鵠晶元以及雲知聲、思必馳、探境科技等也推出智能語音相關的晶元,北京君正、雲天勵飛、依圖科技和芯原微電子等推出針對視覺和視頻處理相關的專用晶元。
三、算力供應以公有雲和自建算力為主,多種方式相補充
當前的算力供給主要包括公有雲、超算中心、自建算力、地方算力中心等方式。其中,公有雲和自建算力中心是算力的主要來源方式,超算中心及地方算力中心等多種方式相互補充。
規模化的算力供應通常通過數據中來承載,新建數據中心的不斷增加,將帶動未來算力資源的供應不斷擴大。據中國電子信息產業發展研究院統計數據,2019年中國數據中心數量大約為7.4萬個,大約能佔全球數據中心總量的23%,其中大型數據中心佔比12.7%;在用數據中心機架規模達到265.8萬架,同比增長28.7%;在建數據中心機架規模約185萬架,同比增加約43萬架。2020年國家大力支持「新基建」建設以來,數據中心作為「新基建」的重要內容,京津冀、長三角和珠三角等算力需求地區,以及中西部能源資源集中的區域,如內蒙、山西等,均在推進新的大中型數據中心的建設。
公有雲以其穩定和易用等特點,成為許多企業特別是中小企業的算力首選方式。據不完全統計,阿里雲伺服器總數接近200萬台,騰訊雲伺服器總數超過110萬台,華為雲、網路雲、京東雲、AWS等雲廠商伺服器總數未找到確切數據,保守估計各類雲廠商伺服器總數之和也超過500萬台。而且在國家宣布大力支持「新基建」建設之後,騰訊宣布未來五年將投資5000億元用於雲計算、數據中心等新基建項目的進一步布局,阿里雲宣布未來三年阿里將投2000億元用於面向未來的數據中心建設及重大核心技術研發攻堅,網路宣布預計到2030年網路智能雲伺服器台數將超過500萬台。各大雲廠商仍在繼續加大算力投入,公有雲算力供應將會更加充裕。
自建算力以其安全性和自主性等特點,成為政府、大企業及其他關注安全的組織的算力首選方式。政府、銀行及高校和央企等,通常通過自建或租賃數據中心的方式自建算力,滿足自身各項業務的算力需求。許多互聯網公司在剛開始時選擇使用公有雲服務,但規模發展到一定程度時通常都會開始自建或租賃數據中心的方式自建算力。其他有部分各種類型的企業,出於安全、商業機密和隱私等方面的考慮,不意願把數據和業務等放到阿里雲等公有雲上,往往選擇託管伺服器的方式自建算力,規模更小企業直接就在本地使用。2020年6月快手宣布投資100億元自建數據中心,計劃部署30萬台伺服器,位元組跳動等大型互聯網公司都在不斷加大數據中心的建設。
超算中心和地方算力中心作為算力供應有效的補充方式,適合於大規模計算需求的應用領域。截至2020年,科技部批准建立的國家超級計算中心共有八所,分別是國家超級計算天津中心、廣州中心、深圳中心、長沙中心、濟南中心、無錫中心、鄭州中心和崑山中心。超算中心主要的算力資源以CPU為主,新建的超算中心及更新升級過程中超算中心逐步增加了異構GPU算力資源。超算中心較好的滿足和彌補了高校科研中算力資源的需求,特別是在工業模擬、生物信息、新材料、氣象、海洋等科學計算領域。國內主要省市地區基本都投資建設了當地算力中心,重點服務本地科研和產業發展的需求,如太原、蘇州、福建等地,目前通常地方算力中心的規模並不大,計算節點數在200-500之間居多,主要服務於當地氣象、工業模擬和生物信息等領域計算需求。此外,2020年以來,武漢、南京、珠海、許昌等地區正在建設人工智慧計算中心,將在一定程度上彌補當前規模化AI算力不足的情況。
結語
算力作為數字經濟的基礎設施,也是數字經濟時代的生產力和引擎,越來越成為數字經濟時代國家競爭力的體現。根據IDC與浪潮聯合發布的《2020全球計算力指數評估報告》,中國和美國的算力建設在全球處於領先地位,美國的算力無論在規模、效率、應用水平等方面都領先於中國。此外,從算力晶元供應角度看,美國的英特爾、AMD、英偉達等企業幾乎佔了全球的絕大部分的市場份額。可見,中國在算力建設和發展仍然需要加大投入和加強研發等,發揮優勢的同時彌補不足,從而為數字經濟長期發展奠定更加堅實的基礎。
Ⅱ 英偉達CPU問世:ARM架構,對比x86實現十倍性能提升
機器之心報道
機器之心編輯部
「只需一張 GeForce 顯卡,每個學生都可以擁有一台超級計算機,這正是 Alex Krizhevsky、Ilya 和 Hinton 當年訓練 AI 模型 AlexNet 的方式。通過搭載在超級計算機中的 GPU,我們現在能讓科學家們在 youxian 的一生之中追逐無盡的科學事業,」英偉達創始人兼首席執行官黃仁勛說道。
4 月 12 日晚,英偉達 GTC 2021 大會在線上開始了。或許是因為長期遠程辦公不用出門,人們驚訝地看到在自家廚房講 Keynote 的黃老闆居然留了一頭搖滾范的長發:
如果你只是對他的黑色皮衣印象深刻,先對比一下 2019、2020 和 2021 的 GTC,老黃氣質越來越搖滾。如此氣質,黃仁勛今天推出的新產品肯定將會與眾不同。
「這是世界第一款為 terabyte 級別計算設計的 CPU,」在 GTC 大會上,黃仁勛祭出了英偉達的首款中央處理器 Grace,其面向超大型 AI 模型的和高性能計算。
英偉達也要做 CPU 了
Grace 使用相對能耗較低的 Arm 核心,但它又可以為訓練超大 AI 模型的系統提供 10 倍左右的性能提升。英偉達表示,它是超過一萬名工程人員歷經幾年的研發成果,旨在滿足當前世界最先進應用程序的計算需求,其具備的計算性能和吞吐速率是以往任何架構所無法比擬的。
「結合 GPU 和 DPU,Grace 為我們提供了第三種基礎計算能力,並具備重新定義數據中心架構,推進 AI 前進的能力,」黃仁勛說道。
Grace 的名字來自於計算機科學家、世界最早一批的程序員,也是最早的女性程序員之一的格蕾絲 · 赫柏(Grace Hopper)。她創造了現代第一個編譯器 A-0 系統,以及第一個高級商用計算機程序語言「COBOL」。計算機術語「Debug」(調試)便是她在受到從電腦中驅除蛾子的啟發而開始使用的,於是她也被冠以「Debug 之母」的稱號。
英偉達的 Grace 晶元利用 Arm 架構的靈活性,是專為加速計算而設計的 CPU 和伺服器架構,可用於訓練具有超過 1 萬億參數的下一代深度學習預訓練模型。在與英偉達的 GPU 結合使用時,整套系統可以提供相比當今基於 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英偉達自家的 DGX,使用的是 AMD 7 納米製程的 Rome 架構 CPU。
據介紹,Grace 採用了更為先進的 5nm 製程,在內部通信能力上,它使用了英偉達第四代 NVIDIA NVLink,在 CPU 和 GPU 之間提供高達 900 GB/s 的雙向帶寬,相比之前的產品提升了八倍。Grace 還是第一個通過錯誤校正代碼(ECC)等機制利用 LPDDR5x 內存系統提供伺服器級可靠性的 CPU,同時提供 2 倍的內存帶寬和高達 10 倍的能源效率。在架構上,它使用下一代 Arm Neoverse 內核,以高能效的設計提供高性能。
基於這款 CPU 和仍未發布的下一代 GPU,瑞士國家超級計算中心、蘇黎世聯邦理工大學將構建一台名為「阿爾卑斯」的超級計算機,算力 20Exaflops(目前全球第一超算「富岳」的算力約為 0.537Exaflops),將實現兩天訓練一次 GPT-3 模型的能力,比目前基於英偉達 GPU 打造的 Selene 超級計算機快 7 倍。
美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在 2023 年推出一台基於 Grace 的超級計算機。
GPU+CPU+DPU,三管齊下
「簡單說來,目前市場上每年交付的 3000 萬台數據中心伺服器中,有 1/3 用於運行軟體定義的數據中心堆棧,其負載的增長速度遠遠快於摩爾定律。除非我們找到加速的辦法,否則用於運行應用的算力將會越來越少,」黃仁勛說道。「新時代的計算機需要新的晶元、新的系統架構、新的網路、新的軟體和工具。」
除了造 CPU 的大新聞以外,英偉達還在一個半小時的 Keynote 里陸續發布了大量重要軟硬體產品,覆蓋了 AI、 汽車 、機器人、5G、實時圖形、雲端協作和數據中心等領域的最新進展。英偉達的技術,為我們描繪出了一幅令人神往的未來願景。
黃仁勛表示,英偉達全新的數據中心路線圖已包括 CPU、GPU 和 DPU 三類晶元,而 Grace 和 BlueField 是其中必不可少的關鍵組成部分。投身 Arm 架構的 CPU,並不意味著英偉達會放棄原有的 x86、Power 等架構,黃仁勛將英偉達重新定義為「三晶元」公司,覆蓋 CPU、GPU 和 DPU。
對於未來的發展節奏,黃仁勛表示:「我們的發展將覆蓋三個產品線——CPU、GPU 和 DPU,以每兩年一次更新的節奏進行,第一年更新 x86,第二年就更新 Arm。」
最後是自動駕駛。「對於 汽車 而言,更高的算力意味著更加智能化,開發者們也能讓產品更快迭代。TOPS 就是新的馬力,」黃仁勛說道。
英偉達將於 2022 年投產的 NVIDIA 自動駕駛 汽車 計算系統級晶元——NVIDIA DRIVE Orin,旨在成為覆蓋自動駕駛和智能車機的 汽車 中央電腦。搭載 Orin 的量產車現在還沒法買到,但英偉達已經在為下一代,超過 L5 駕駛能力的計算系統作出計劃了。
Atlan 是這家公司為 汽車 行業設計的下一代 SoC,其將採用 Grace 下一代 CPU 和下一代安培架構 GPU,同時也集成數據處理單元 (DPU)。如此一來,Atlan 可以達到每秒超過 1000 萬億次(TOPS)運算次數。如果一切順利的話,2025 年新生產的車型將會搭載 Atlan 晶元。
與此同時,英偉達還展示了 Hyperion 8 自動駕駛 汽車 平台,業內算力最強的自動駕駛 汽車 模板——搭載了 3 套 Orin 中心計算機。
不知這些更強的晶元和系統,能否應付未來幾年裡人們對於算力無窮無盡的需求。在 GTC 2021 上,英偉達對於深度學習模型的指數增長圖又更新了。「三年間,大規模預訓練模型的參數量增加了 3000 倍。我們估計在 2023 年會出現 100 萬億參數的模型。」黃仁勛說道。
英偉達今天發布的一系列產品,讓這家公司在幾乎所有行業和領域都能為你提供最強大的機器學習算力。在黃仁勛的 Keynote 發表時,這家公司的股票一度突破了 600 美元大關。
「20 年前,這一切都只是科幻小說的情節;10 年前,它們只是夢想;今天,我們正在實現這些願景。
英偉達每年在 GTC 大會上發布的新產品,已經成為了行業發展的風向。不知在 Grace 推出之後,未來我們的伺服器和電腦是否會快速進入 Arm 時代。
Ⅲ 天璣9000解開行業最難題,聯發科旗艦功成,做對了三件事
文丨壹觀察 宿藝
聯發科終於在全球移動旗艦處理器市場「揚眉吐氣」。
新發布的天璣9000 「辯笑性能全開 冷靜輸出」,總結關鍵詞就是: 性能拉滿、全局能效、最高製程、優勢突出 。
在主要競爭對手近年來不斷「擠牙膏」的狀態下,天璣9000 通過「全維度」地向前跨出一大步,不僅真正具備了與新驍龍8、甚至是蘋果A15正面硬抗的實力與底氣,也讓其成為天璣晶元邁向「 旗艦新世代 」的重要節點。
還有兩個關鍵信息:
一是天璣9000 的安兔兔跑到了1031504分,是全球首個「百萬跑分」旗艦5G處理器,與隨後發布的新驍龍8 跑分基本相差無幾,並且超過了蘋果A15。考慮到天璣9000如今還沒有量產機型,因此其後期的優化與提升空間會更加明顯。
二是天璣9000受到了余猜來自產業頂級合作夥伴的一致認可、熱捧甚至是「搶發」。要知道這在之前幾乎都是高通旗艦8系處理器的標准待遇,足以印證天璣9000這顆頂級5G旗艦處理器擁有的長足突破與行業影響力。OPPO副總裁、手機產品線總裁段要輝不僅宣布了OPPO下一代Find X旗艦系列首發天璣9000,還評價稱其為「旗艦手機樹立全新性能標桿」;vivo 高級副總裁、首席技術官施玉堅表示「vivo 將成為率先採用天璣 9000 旗艦晶元的終端廠商」;Redmi 品牌總經理盧偉冰認為天璣9000是「史無前例的一次性能飛躍」與「最先進的『超旗艦』SoC之一」;榮耀產品線總裁方飛贊揚天璣9000具有「超強的性能和出色的能效表現」。
天璣9000的表現已經遠超行業與用戶的「最好期待」,這在晶元這種已經被認為是「長期規劃+漸次進化」的行業來說非常難得,聯發科又是如何做到這一點的?
從某種意義上來講,晶元性能就是頂級移動處理器的主要衡量標准之一。
長期以來,聯發科旗艦處理器相比行業競品總感覺「還有距離」。以至於全球旗艦手機晶元性能經常出現蘋果A系列 高通驍龍8系列 聯發科 其他晶元的情況。
天璣9000的出現打破了這一「固定排列」,其CPU採用了面向未來十年的新一代Armv9架構,以及 1 超大核 + 3 大核 + 4 能效核心的三叢集架構。其中超大核用的是 ARM 最新最強的 X2 核心,頻率達到 3.05GHz;3 枚 2.85GHz的 A710 大核,4 枚 1.8GHz 的 A510 能效核。
有趣的是,全新高通驍龍8也採用了高度相似的架構方案。但從1 x3.0GHz Cortex-X2超大核+3 x2.5GHz Cortex-A710大核+4 1.8GHz Cortex-A510小核的CPU組合對比來看,天璣9000除了超大核主頻稍高,在關鍵的3個A710大核上,天璣9000皆高出了0.35GHz的頻率(2.85GHz 相比 2.5GHz),這也是用戶在日常大多數場景中高頻調用的主頻,由此直接提升了性能。
當然,CPU性能不能只看核的數量和主頻,整體部件的聯動也是關鍵。聯發科給天璣 9000的CPU性能提升准備了一大 「利器」就是目前安卓旗艦SoC里最大的緩存設計,包括8MB L3 三級緩存、6MB SLC 系統緩存(新驍龍8 只有 6MB、4MB);各個子核心都配了L2 二級緩存,分別是超大核 X2 1MB、大核各 512KB,特別是四枚能效核心,每兩枚能效核心共用 512KB 的 L2 二級緩存。
實際上,包括蘋果的M1系列、AMD的Zen3都採取了增大緩存和增大內存帶寬的設計,這也是被業界頂級晶元企業已經證明可以有效提升性能的方案趨勢。緩存的作用在於優化高速數據傳輸帶來的「擁堵」,提升CPU 與運存之間的通訊能力,加快讀取速度。換句話說,天璣9000的多層大緩存優勢可以保障更快的系統響應速度與協作效率,同時也可以節省功耗。
Geekbench的測試結果對比也再次驗證了這一點,數據顯示天璣9000多核領先新驍龍8約13 %,其中一方面來自大核主頻優勢,另一方面顯然來自大緩存優勢,尤其是一些子項目的壓強測試中對緩豎灶型存的性能要求更加敏感。從另一角度來看,「安卓苦蘋果CPU性能久矣」,A15的4000+曾一騎絕塵,這次天璣9000可以說是帶領安卓手機來到了4300+,順利進入蘋果A15獨霸的「4000分俱樂部」。
另一個「利器」是天璣 9000支持行業最新的 LPDDR5X 內存規格,傳輸速度可達7500Mbps,相比新驍龍8的 LPDDR5運存數據相比帶寬性能提升36%、延遲降低20%,同時功耗降也低了約20%。這意味著CPU等待內存完成讀寫的時間更短,在計算量相同的情況下,CPU能更早地完成計算,可以更早把頻率降下來,從而變相減少了需要持續高頻運作的時間。
LPDDR5X雖然目前還沒有量產,但天璣 9000和新驍龍8皆是「面向2022年的旗艦處理器」,並且美光已經攜手聯發科在天璣9000平台上完成了LPDDR5X的驗證。如果明年旗艦機型搭載了LPDDR5X,天璣9000相比新驍龍8的性能優勢還將進一步拉大。
由此來看, 在天璣 9000上聯發科展現出了足夠老練的經驗、對全局的周詳思考,以及對革新趨勢的准確判斷,可謂「劍法精準」 。
5G進入成熟階段,用戶對旗艦智能手機的要求除了性能,同樣看重發熱、續航、重量與手感。
寸土寸金的5G旗艦手機,內部堆疊已經接近極限。而安卓旗艦手機近兩年顯然被發熱問題搞怕了,以至於近兩年幾乎所有安卓手機旗艦發布會,都會單獨劃出一部分時間講散熱材料和結構,而這也已經成為「固定環節」。但用戶和業界依舊不滿意,在新驍龍8發布會的媒體采訪環節,中國媒體最關注的問題之一,依舊還是「發熱」與「能耗」。
原因在於,無論是 游戲 、影像拍攝和視頻剪輯這些用戶日常的高頻剛需,都需要調用大量的處理器算力。手機「發燙」不僅會影響晶元壽命和電池安全,更是會帶來掉頻、掉幀、應用卡頓等一些列問題。
相比之下,聯發科精準「對症下葯」,從天璣1000之後的天璣系列晶元,共同的顯著特點之一,就是「能耗優勢」。在此前的媒體溝通會上,聯發科高管也多次強調稱:在決定天璣9000每一個部件的具體規格的時候,基本都是以「實際應用中的能效比」作為第一出發點去考量。
在此基礎上,聯發科在天璣9000上宣布推出「 全局能效優化技術 」,簡單來講就是全方位覆蓋不同IP模塊,從全局的角度優化CPU、GPU、APU、ISP、基帶等子單元的功耗。
也就是說,「局部見真章」,每一個細節都要扣功耗優化,之後又在「全局中見功力」,通過方案與技術整合實現全局優化,最終尋找到「 性能與功耗的最優平衡點 」。
除了CPU提升核心頻率、增大緩存、提升所支持的內存規格之外,製程工藝也是影響晶元能耗比的一大關鍵因素。天璣9000所採用的是目前最先進的晶元製程工藝——台積電4nm,而新驍龍8則基於三星4nm工藝打造。根據媒體報道的信息來看,三星4nm工藝的晶體管密度約為1.67億個/mm²,它未達到上一代台積電5nm工藝1.71億個/mm²的水平。更先進的工藝製程能在同樣的大小下塞入更多的晶體管,實現同尺寸性能更強,功耗更低,優質產業鏈資源和不惜成本來打造旗艦的選擇同樣也是天璣9000實現「功耗領先」的一大底氣。
天璣 9000 的 GPU 圖形處理器進步也非常明顯,採用了Arm 最新的旗艦 Mali-G710 MC10 十核心 GPU。ARM最新GPU架構出了性能提升,另一大優勢就是可以有效降低CPU參與協同計算時的負載,數據顯示相比當今的安卓旗艦,性能提升高達35%,能效增強更是達到了60%。在針對GPU的GFXBenchAztec Ruin能耗比測試中,天璣9000達到了5.12fps/W,而新驍龍8為3.84fps/W。
針對 游戲 等傳統處理器的「重負載」場景,聯發科為天璣 9000提供了對應的「引擎」:
HyperEngine 5.0 游戲 引擎 中的智能調控引擎的職責就是提升性能、降低功耗,能依據場景、內容和系統等維度來降低運行功耗。例如天璣 9000 支持 AI-VRS 可變渲染技術,可以自動偵測畫面場景特徵,來動態調整局部渲染,官方公布最高可降低 15% 功耗;智能調控引擎還會對內容進行解構,拆分成多線程並優化,提升 CPU 多核效率,最高能得到 5% 的功耗優化;智能動態穩幀技術則通過全局的溫度預測決策系統,來調配各部資源以穩定 游戲 幀率,能節省 9% 功率、降低約 2 發熱量、提升8fps 平均幀率,以及降低 75% 抖動率。
ISP方面, 天璣9000帶來了旗艦級的Imagiq 790 圖像處理器, 其採用了3 枚18bit 的 ISP,支持同時處理 3 個18Bit 的 HDR 視頻、3 個三重曝光畫面。重要的是,Imagiq 790運算速度大幅超出了新驍龍8,前者處理速度可達 90 億像素每秒,而後者只有 32 億像素每秒,二者相差高達180%。天璣9000還內置了全新AI Video視頻引擎,其特點是可以有效降低視頻拍攝佔用帶寬,讓預覽擁有所現即所見的低延遲表現,同時進一步降低用戶拍攝時的功耗。
AI同樣是天璣系列的「傳統優勢」,天璣9000搭載了全新的第五代APU 590,它包含了四個性能核和兩個通用核,採用高能效AI架構設計,對比上代性能提升400%,同時能效提升400%,可以為智能手機的拍照、視頻、流媒體、 游戲 等使用場景提供更好的高能效AI協同算力。媒體公布的測試數據顯示,天璣9000在 ETH 蘇黎世 AIBenchmark 的Performance測試中獲得 692.5K的全場高分,是第二名 Google Tensor 的2.7倍。從這個結果可以看出,為何聯發科、蘋果都採用了單獨硬體NPU方案,其優勢之一就是在堅持強性能的同時可以更好地協同優化功耗難題。
聯發科甚至把功耗磕到了5G基帶上:UltraSave 2.0 省電技術進一步降低 5G 通訊的功耗,相比上一代旗艦5G輕載功耗降低32%,5G重載功耗降低 27%。
在聯發科幾乎「掘地三尺」地能耗優化挖潛之下,「全局能效優化技術」展現出了非常顯著的性能與功耗平衡優勢:測試數據顯示,在90fps幀率的 游戲 重度負載場景下,功耗降低了25%,溫度最低降低了9度,將用戶玩 游戲 的溫度在35度左右,聯發科也在發布會上特意強調了「天璣9000打 游戲 不發燙」;在用戶日常瀏覽為代表的輕負載應用中(如微信、淘寶、瀏覽器、看小說等),天璣9000能比2021安卓旗艦可以節省少則5-38%不等的功耗。
由此來看, 「 全局能效優化技術」的最大作用就是可以根據用戶不同使用場景和負載功耗,全方位地調動不同IP模塊,在本已「功能挖潛」的基礎上再次完成優化協同的異構計算,避免了CPU、GPU、ISP等各個模塊各自為政的問題 ,從而達到性能最大化和功耗最小化的「超預期」表現。
毫無疑問, 天璣9000是聯發科史上最強的SoC,也是當今安卓平台綜合最強、能耗比最高的 5G SoC,沒有之一。
誰最了解5G旗艦處理器的性能?在中國手機市場皆歷經十年以上慘烈競爭的TOP手機品牌絕對都是「老司機」。
根據聯發科公布的信息,採用天璣9000旗艦移動平台的終端將於2022年第一季度上市。
從目前來看,各主要TOP國產手機品牌的熱情已經被點燃:
OPPO副總裁、手機產品線總裁段要輝評價天璣9000為「旗艦手機樹立全新性能標桿」,並在第一時間宣布「下一代Find X旗艦系列將首發搭載天璣9000旗艦平台」。
vivo高級副總裁、首席技術官施玉堅表示:「vivo將成為率先採用天璣9000旗艦晶元的終端廠商,未來雙方還將不斷突破,為用戶帶來更多驚喜」。
Redmi 品牌總經理盧偉冰更是稱贊天璣9000「是目前最先進的『超旗艦』SoC之一」,也是「K50宇宙不可或缺的關鍵性能拼圖」。
榮耀產品線總裁方飛則認為「天璣9000作為新一代旗艦5G移動平台,具有超強的性能和出色的能效表現」,「未來將跟榮耀的新產品進一步的深入合作,為消費者打造更加極致創新的體驗」。
上述四大品牌市場份額占據了國內手機市場近80%,如此積極的表達與產品跟進策略足以印證了天璣9000接下來在中國高端旗艦市場的爆發沖擊力。
從2019年底發布天璣1000至今,聯發科用了兩年時間的奔跑與創新終於如願站上了「移動旗艦晶元之巔」。在這個過程中,聯發科至少做對了三件事情,可謂是聚全力而破局,絕非偶然:
首先,是精準洞察大眾用戶需求,加強消費型品牌打造。 手機行業競爭到今天,晶元企業並非是傳統的「ToB角色」,而是必須轉變自身定位,從深度洞察大眾用戶需求與偏好,通過品牌互動影響大眾用戶,加速打造高端品牌勢能,來反推合作夥伴的重視、支持與投入。
平心而論,過去十年在晶元品牌打造上最好的廠商是高通,驍龍品牌的高端形象已經深入大眾手機用戶,不僅手機廠商爭搶首發,作為國內最大線上3C銷售平台的京東甚至還推出了「驍龍專區」。而聯發科在之前的多次磨礪之後,通過吸取經驗教訓如今終於建立了天璣品牌的高端化勢能。京東在此次天璣9000發布會上也宣布與聯發科共同開啟京東「天璣旗艦店」。京東通訊事業部總經理潘海帆對此表示:「近三年來,我們攜手手機品牌聯合發布了近百款搭載天璣晶元的終端產品,讓更多消費者體驗到了天璣高端旗艦產品的強勁性能,這些產品也得到了消費者的認可喜愛」。
對於聯發科而言,在性能「破局」同時,品牌高端化的「破局」同樣至關重要。 晶元高端化這條路,決定權一定要掌握在自己手裡 。
第二,是深入洞察客戶需求 。這一點是聯發科自3G以來就一直具備的顯著優勢,5G時代聯發科推出了天璣5G開放架構,可以聯合終端廠商通過深度協同合作,合力為用戶帶來更具差異化的智能手機體驗,這一點在天璣1200上已經獲得了合作夥伴的充分認可,並表現出了良好的拓展性。如今天璣9000被主要TOP手機合作夥伴熱捧也再次印證了這一點。
值得關注的是,除了硬體企業,包括索尼半導體、三星圖像感測器、騰訊 游戲 、抖音,以及Discovery 探索 傳媒集團等核心產業鏈企業、互聯網廠商和諸多跨界專業人士也參加了此次發布會,聯發科的「頂級朋友圈」不斷擴大,一方面可以更多維度去接觸不同圈層的細分用戶需求,另一方面也為產業合作夥伴的聚合創新提供了更多空間與可能性。如Discovery三位導演及專業攝影師將使用天璣晶元的5G手機,前往極端的環境,捕捉最難拍攝的瞬間,為全球用戶闡述 科技 創新如何改變影像對生活與探險的記錄方式。
第三,是努力了解運營商5G部署技術趨勢與市場節奏,避免「踏錯點 」。關於這個問題,大多數晶元和手機企業都深有體會,也包括聯發科,尤其是在4G部署中期的節奏誤判導致了之後的一系列連鎖反應。但從5G開始,聯發科再次回歸到「正確的節奏」與「熟悉的打法」。
中國信息通信研究院移動通信創新中心副主任徐菲對此表示:聯發科是最早參與國內5G SA技術試驗完整測試的晶元廠商之一,並在2021年推出全新一代3GPP R16版本的M80 5G Modem,成為中國5G技術和市場進一步升級的重要驅動力。三大運營商也派相關負責人參加了天璣9000發布會,中國移動終端公司副總經理汪恆江透露「聯發科已是中國移動市場第一大5G晶元供應商」。
根據Counterpoint的數據顯示,在2021年第三季度全球智能手機處理器市場(按出貨量計算),聯發科的市場份額達到了40%,遠超第二名的高通(27%),已經連續五個季度站穩全球第一大智能手機晶元廠商位置。其中天璣系列5G手機晶元在中國市場的成功至關重要。數據顯示,在2021年的中國智能手機晶元(4G+5G)市場聯發科拿到了高達41%的市場份額,在中國的5G智能手機晶元市場也是拿到了高達40%的市場份額。
Counterpoint最新發布的報告中預測了三個數據:2022年全球智能手機市場5G滲透率將達到55%,預計出貨量將達到8億;2022年7nm及以下先進製程晶元的出貨佔比將達到57%,其中5/4nm晶元的份額將達到29%;到2023年配備獨立AI核心的智能手機晶元佔比將快速提升到75%, 消費者將「更關注AI與能效」,顯然聯發科旗艦功成,在這兩項上也讓行業看到了先進的技術實力和前瞻布局。
晶元是一個典型的長周期、重投入、節奏穩定的行業,這意味著持續踏准創新節奏與技術趨勢、並建立引領實力的企業可以獲得持續的行業引領力與市場紅利。在5G長達十年的重要技術與市場重構周期,聯發科已經奠定了這一優勢,未來兩年聯發科在5G智能手機市場的份額將進一步提升,特別是旗艦晶元市場將會獲得持續穩定突破,兩者對於聯發科的意義都非常重要。
《壹觀察》認為,一個「更好的聯發科」會使整個產業獲益:對於手機廠商而言可以獲得更多的產品組合與差異化體驗打造選擇,對於競爭對手而言也有助於擺脫其他晶元企業「擠牙膏」的習慣,共同為用戶提供迭代速度更快、更加富有創造力的智能終端產品,從而加速整個產業走向煥新與創新的正向循環。
Ⅳ Arm發布CortexA715,以及具備硬體光追的Immortalis-G715
Arm發布了一系列新的晶元內核架構,包括了三款基於Armv9的CPU,以及三款GPU,其中包括Arm首個具有硬體光線追蹤加速功能的旗艦GPU。Arm希望新的內核架構能提升設備的性能,以及延長電池續航時間。
Cortex-X3和Cortex-A715屬於Cortex-X2和Cortex-A710的升級版本,都是64位核心。此外,Arm在Cortex-X3和Cortex-A715上都放棄了AArch32指令集,這意味著全面轉向64位架構。如果客戶仍需要兼容AArch32指令集,可選用Arm這次推出的A510 v2版來提供支持。
Cortex-X3相比Cortex-X2性寬消能提高了22%,IPC提升了11%;Cortex-A715與Cortex-A710,在相同的功率水平和製造工藝下,性能提高了5%,能效滲畝提高了20%;A510 v2版通過優化能效,使得同性能下功耗降低了5%,頻率可提高5%。Arm表示,Cortex-A715已經達到了Cortex-X1的性能水平,與改進型的小核搭配,對於中端處理器而言會有較大的幫助。
這次Arm還推出了名為「Immortalis」的全新旗艦GPU,不再局限於Mali系列,後者是迄今為止全球出貨量最大的GPU,已達到80億個。Immortalis是專門為旗艦智能手機設計叢巧森的,設計核心就是為了提供卓越的 游戲 體驗,其中一項關鍵功能就是加入了光線追蹤。去年Arm已經在Mali-G710上提供了基於軟體的光線追蹤功能,而這次Immortalis-G715則是第一款在移動設備上提供基於硬體光線追蹤功能的Arm GPU。據Arm介紹,Immortalis可以有10到16個內核,相比上一代產品會有15%的性能提升。
此外,Arm還推出了Mali-G715和Mali-G615,前者具有7到9個內核,後者內核數量則是6個或更少。Arm稱,Immortalis-G715、Mali-G715和Mali-G615將構成其新的GPU產品線,推動下一代移動設備的性能提升。
我們最快在年底就能看到採用新內核的Arm晶元,應該會出現在下一代SoC上。
Ⅳ 深度解讀ARM新架構:大核進取、小核擺爛
眾所周知,對於如今的絕大多數的智能手機、平板電腦,以及部分筆記本電腦產品來說,ARM可以說是「一切的源頭」。高通與三星的SoC近年來一直使用著ARM公版的CPU設計,而被公認「翻身」了的聯發科,則靠的是ARM公版的CPU與GPU架構,甚至就連一向標榜「自研」的蘋果,實際上也離不開ARM的基礎指令集授權。
正因如此,當ARM方面在2022年6月28日晚間,毫無預兆地突然發布了全新一代的架構方案後,自然也值得我們去進行進一步的分析。
性能概況:大核更強、中核更省,GPU加入硬體光追
開門見山,我們先直接為大家帶來ARM這一代新架構的性能相關信息。並且非常令人感嘆的是,ARM此次在公布新老架構性能對比數據時居然不再「玩巧」,事實上,他們給出了可能是史上最詳細的性能對比參數。
首先,是全新的Cortex-X3大核。在使用了完全相同半導體製程、主頻和緩存碼肆臘設計的前提下,Cortex-X3的性能比Cortex-X2可以提升11%。
在使用完全相同半導體製程,但主頻和緩存設計按照新老架構的不同典型值做對比時,Cortex-X3的性能比Cortex-X2可提升22%。
如果再考慮到製程方面的因素,比如假設Cortex-X3採用新的台積電3nm工藝情況下,此時對比採用台積電4nm工藝、且主頻與緩存採用現有設計的Cortex-X2時,那麼新架構的性能領先幅度則會達到25%。
其次,是改進型的Cortex-A715中核,在使用相同半導體製程、相同主頻和緩存設計的前提下,新的中核性能相比老設遲滑計僅有5%的提升,但請注意,此時的能效會比老架構高出20%。也就是說其實際功耗此時為Cortex-A710的87.5%,在性能略微提升的前提下省電了12.5%,算是比較明顯的進步了。
相比於大核與中核的顯著改進,新架構里Cortex-A510小核的改進就比較微妙了。一方面,正如其名稱所示的那樣,此次的新版小核還是叫做「Cortex-A510」,連名字都沒變。但另一方面,要說它完全沒改又不太對,因為新版的小核功耗比老版本下降了5%,同時更為重要的是,其此次加上了對32位應用的兼容性。
但請注意的是,這個兼容性功能是可選特性,並非標配。選配後是有可能會給性能帶來負面影響的,但具體影響有多少,ARM方面並沒有明確。
除了新版的CPU,ARM此次也同期發布了換代的GPU方案。這一次,新的GPU設計被分為了三檔,分別是「頂配」的Immortalis(不朽)-G715、中配的Mali-G715,以及入門級的Mali-G615。
與本世代的Mali-G710和Mali-G610相比,新架構首先帶來了15%的基礎效率提升(而且是不考慮製程增益的情況下),其次還支持了VRS可變著色率技術,能夠在部分高刷 游戲 中顯著降低渲染負載、對於XR應用也有很大的意義。
不僅如此,作為ARM的全新旗艦GPU產品,Immortalis-G715更是首次引入了硬體光線追蹤單元。根據ARM方面的說法,硬體光追單元在GPU核心中僅占據了4%的面積,但其相比Mali-G710採用的軟體光追設計卻能夠帶來300%以上的性能提升。考慮到真正支持Mali-G710光追效果的 游戲 至今尚未上市,所以ARM的這番表述屬實是「背刺」自己了。
架構分析:大核更大、中核做減法,小核原地踏步
講完了新架構的性能參數變化,接下來我們就進入按慣例的架構分析環節,來看看ARM到雹李底是如何實現這些改進的。
首先是全新的大核Cortex-X3,它的改動無疑是此次新架構中最大的。其包括了比前代大10倍的L0 BTB(分支目標緩沖區)和大50%的L1 BTB,這意味著大幅提高的分支預測性能。根據官方的說法,Cortex-X3的分支預測延遲降低了12.2%,預測錯誤率降低了6%,同時減少了3%的前段停頓。由於分支預測性能大為提升,因此Cortex-X3的mop(微操作)緩存現在可以做得更小,同時流水線長度也進一步下降。
這還沒完,與Cortex-X2相比,Cortex-X3的指令緩存提取寬度現在從5增加到了6、算術邏輯單元從4個增加到了6個,同時亂序窗口也進一步增大。而在後端部分,新架構的載入/存儲寬度也增加了50%,並增多了數據預取引擎的數量。
更強的分支預測性能,更寬的執行窗口、更短的流水線級別,更快的存取速度,有沒有覺得很眼熟?沒錯,這個改進方向,其實就是多年前已被Intel從奔騰4到酷睿的革新時,所證明的有效路徑,只不過ARM如今將其在RISC處理器上「復刻」了一遍。
相比於Cortex-X3的銳意進取,Cortex-A715與(新版)Cortex-A510的改變就相對沒有那麼大了。其中,Cortex-A715的改進主要來自於放棄對32位指令集的支持,從而大幅簡化了指令解碼器的設計,空出更多的晶體管位置來提高了緩存大小。而Cortex-A510的變化則更是語焉不詳,現在只知道它具備了可選的32位支持、同時功耗略微下降而已。
與CPU部分(特別是大核心)的改動相比,ARM此次的新GPU變化顯得就不是那麼顯著了。一方面,無論是Immortalis-G715、Mali-G715,還是Mali-G615,它們其實都是共享的相同架構設計(只是Immortalis-G715內部多了硬體光追電路),主要區別還是在於核心數量上做了明確限制。
另一方面,與現有的Mali-G710相比,新款GPU在基礎架構上將FMA乘加單元的數量翻了一倍,設計了用於抗鋸齒的新型FP16計算單元。同時根據ARM方面的說法,新的GPU「在重負載場景下」的三角形生成率為現有的3倍,紋理映射速度是現有的2倍。不過,暫時還並不清楚這個倍數是來自底層架構的改進,還是來自於核心數量或頻率的提升,因此僅僅做個參考就好。真正的GPU性能提升幅度,還得等到實際產品上市後才能有定論。
市場分析:ARM筆記本或將興起,入門手機也有望翻身
值得一提的是,在發布新一代產品線的同時,ARM還給自家的軟硬體方案起了一個新的名字,叫做「Arm Total Compute Solutions(直譯為ARM整體計算解決方案)2022」,縮寫為ARM TCS22。同時,ARM方面也將去年發布的上代架構隨之「整合」為ARM TCS21,並同時預告了明年(TCS23)和後年(TCS24)的產品命名。
這意味著什麼呢?從這個舉動中,我們至少可以挖掘出兩條信息點。一是ARM似乎並不打算用新架構完全取代上一代的產品線,Cortex-X2、A710和A510得到「重命名」或意味著它們的授權還將繼續。
但更進一步來說,ARM從TCS21到TCS22的變化,以及目前官方已經「劇透」的TCS23和TCS24不難發現,一方面ARM在TCS22(也就是這一代的新架構上)刪除了中核(Cortex-A715)對32位計算的支持,同時為「新版的」Cortex-A510小核增加了「可選的」32位計算功能。
另一方面,在TCS23和TCS24的預告圖里可以清楚地看到,接下來的兩年裡,ARM每年都會更新大核與中核設計,但小核卻只會在2023年迎來一次換代,2024年則是不更新、直接沿用。
與此同時,在此次TCS22官方「樣板設計」中,ARM不僅將新架構支持的最大核心數量從8核擴展到了12核,而且還給出了多個以大核、中核為主的組合方案,甚至出現了完全不採用A510小核,僅由大核與中核構成的「超高性能設計」。
這或許意味著,ARM「仗著」新架構,特別是大核(Cortex-X3)、中核(Cortex-A715)性能與能效比的顯著改善,明顯在有意將其往更高的市場定位上推。或許,未來我們就會看到更多基於ARM新架構的筆記本電腦SoC方案了。
其實回溯 歷史 不難發現,此前的Cortex-A53架構用了四年(2014-2017)才換代,而Cortex-A55架構更是「堅挺」了至少五年(2018-2022)之久。相比之下,去年的「初版」Cortex-A510架構因為完全不兼容32位代碼,其實並不適合入門級設備與其他低功耗設備使用。
如此一來,今年的「新版」Cortex-A510實際上才是ARM v9指令集下,第一款真正可以用於入門級設備的低功耗CPU架構設計。而最快到明年,它就將會被更新的架構所取代。
換句話來說,面對如今智能手機市場高端產品大放光彩、而入門級設備卻銷量萎縮的局面,ARM一方面通過新的大核、中核為新旗艦注入了體驗繼續進步的動力,另一方面也史無前例地針對低端市場進行了「補救」。
或許在不久後,我們就會看到基於(新版)Cortex-A510架構,體驗明顯更加靠譜的入門級主控,或是性能與能效比都大幅進步,總算能與蘋果掰掰手腕的Android智能手錶平台了。
Ⅵ 請問現在ARM架構的CPU和GPU相當於電腦什麼等級的CPU和顯卡有沒有相當於512M顯存的十分感謝!
ARM架構(過去稱作進階精簡指令集機器(Advanced RISC Machine),更早稱作Acorn RISC Machine)是一個32位元精簡指令集(RISC) 中央處理器(processor)架構,其廣泛地使用在許多嵌入式系統(embedded)設計。由於節能的特點,ARM處理器非吵飢仔常適用於移動通訊領域,符合其主要設計目標為低耗電的特性。
ARM架構 有很多型號的 特定的應用上面 都不一樣的 具體要什麼型號的才能 有具體升汪的參數
還有 顯存只是顯卡的肢前一個方面 不能只以顯存 來衡量顯卡
Ⅶ Arm現在的NPU能達到自動駕駛L3級別的算力嗎
自動駕駛L3級別算力基本上主要以CPU+GPU/NPU為主, 一般來說CPU用Cortex A核去堆,8-16個,看系統有多大, 在這個部分可以提供200K以上的DMIPS。L3入門級晶元通過GPU/NPU提供額外幾十TOPS左右的算力,向上通過堆疊GPU可以達到幾百TOPS, 量產晶元這種架構較多,相對成熟。NPU方案,ARM方面可以通過周易NPU來堆疊,Arm還有ML IP,後續在車里也可能會應用。 量產的平台上還有用CPU加FPGA和ASIC電路等,有很多方案實現異構計算平台的。對L3系統來說硬體的算力也不是絕對的,需要和演算法等搭配。
Ⅷ 怎麼編程實現使用ARM處理器上的GPU進行工作
寫@Comzyh邀請。
曾經對ARM板子鉛亂廳上GPU計算有過一些調查,一般就分兩種方式:
1. OpenCL:需要晶元的支持,以及製造商提供相應的SDK和驅動(可能較為困難)。
2. OpenGLES:將所需要的計算打包轉換成shader渲染操作。
這兩種方式上述回答都有提到。此外,不使用GPU的話槐隱,可以考慮使用陪拍ARM上的NEON指令集,根據實現姿勢不同會有常數倍的速度提升。