㈠ 地平線征程5:國產大算力自動駕駛晶元即將量產!
駕駛輔助功能作為車企在新能源時代新的技術護城河之一,在當下受到的關注與日俱增,決定一台車駕駛輔助能力的,除了有能夠看得見摸得著的激光雷達、攝像頭這類感知感測器,在看不到的地方自動駕駛晶元同樣至關重要,它的性能高低直接決定,感知感測器採集到的信息能否被准確、快速的處理。那麼對於高階的駕駛輔助功能,甚至是自動駕駛,我們需要什麼樣性能的自動駕駛晶元呢?
㈡ 華為模仿OPPO,mate50將搭載雙晶元,兩塊晶元到底有多強
OPPO的雙晶元跟華為的晶元是完全不同的兩個方向,之前華為的手機採用的是自主設計的集成式麒麟soc,晶元內部集成了通訊基帶、IPS、NPU等模塊,在性能釋放與技術含量上面,華為的都要比OPPO更強。
OPPO手機內部除了高通驍龍的soc,還定製了一款6nm的NPU晶元焊在主板上。這款NPU晶元主要的功能就是跟驍龍晶元共同參與影像計算,以求達到更好的成像效果。
如果美方沒有制裁華為,那麼華為集成式的麒麟soc將會在性能、能耗比、ai算力上面遠遠領先國內其他友商的產品。假如mate 50系列真的是採用雙晶元的方案,那麼華為在晶元的算力上面,可能不如其他友商的產品。可是真要讓華為解決了晶元代工問題,那麼到時候華為手機的市場競爭力將會非常強。
㈢ 浪潮AI最新升級的AIStation 3.0平台算力調度能力怎麼樣
AIStation 3.0平台是浪潮AI最新升級的AI資源平台,在AI算力調度方面已全面支持最新NVIDIA® Ampere架構晶元,支持GPU多實例的靈活劃分,用戶可以通過管理界面動態調整GPU算力組合,從單卡多實例的細粒度劃分,到多機多卡的大規模並行計算,幫助用戶最大限度釋放算力資源。另外,還將提供更彈性的算力運行策略,實現運行環境與運行資源的隔離,開發者可以在不改變運行環境的情況下按需對資源進行伸縮,讓開發者不必關注底層算力技術,算力隨用隨取,按需分配,快速響應,進一步提高開發訓練效率。
㈣ 晶元算力tops是什麼意思
品牌型號:HUAWEI P50 Pocket
晶元算力tops就是處理器運算能力。tops是TeraOperationsPerSecond的縮寫,1tops代表處理器每秒鍾可進行一萬億次(10^12)操作。
集成電路或稱微電路(microcircuit)、微晶元(microchip)、晶片/晶元(chip)在電子學中是一種將電路(主要包括半導體設備,也包括被動組件等)小型化的方式,並時常製造在半導體晶圓表面上。
集成電路對於離散晶體管有兩個主要優勢:成本和性能。成本低是由於晶元把所有的組件通過照相平版技術,作為一個單位印刷,而不是在一個時間只製作一個晶體管。性能高是由於組件快速開關,消耗更低能量,因為組件很小且彼此靠近。2006年,晶元面積從幾平方毫米到350 mm²,每mm²可以達到一百萬個晶體管。
㈤ 黑芝麻智能第二款大算力晶元A1000 pro流片成功
集微網消息,在 汽車 智能化成為全球主流共識,軟體定義 汽車 的商業模式加速發展的當下,以人工智慧為核心的軟體技術將決定智能 汽車 「該有的樣子」, 汽車 產業原有的商業模式也將被打破。因此,包括摩根士丹利等投行認為,特斯拉通過銷售軟體訂閱服務獲得的利潤最終可能比銷售硬體更多。
誠然,用軟體升級的方式拓展全新的功能和性能,車廠能從軟體升級中獲取更多的收益,但前提是硬體水平夠「硬核」。業內人士指出,「只有將硬體的性能和算力備足,才能為後續的軟體升級提供足夠多的空間。」
其中,穩定的車規級晶元以及計算平台是自動駕駛「軍備競賽」中的重要基石。目前,英特爾、英偉達、特斯拉等海外車規級SoC晶元玩家仍是主流。近年來,黑芝麻智能、芯馳 科技 等為代表的本土勢力也在加速崛起,其中, 黑芝麻智能4月份於上海發布的新款A1000 pro最高可達196 TOPS,典型功耗25W,繼續保持國內最高算力自動駕駛算力晶元的位置。
先進工藝打造自動駕駛「最強大腦」
今年來,上汽、蔚來等越來越多的車企都對大算力表現出了強烈的追求,目的就是為後續的軟體演算法和創新留下足夠大的空間。隨著自動駕駛的技術、應用向前發展,市場對大算力的需求持續高漲,而算力主要由晶元來提供。 因此,自動駕駛發展的核心在於 汽車 的「最強大腦」——晶元。
黑芝麻智能CMO楊宇欣向集微網透露:「這兩年客戶對算力增長的要求是非常快的,因為自動駕駛正處於高速發展的時期,其實主流廠商剛開始更多的還是以硬體預埋或者是算力冗餘的方式來進行系統開發。 因為自動駕駛本身的技術演進也比較快,所以客戶對算力的要求是挺高的。 」
基於此,在去年發布A1000晶元後,黑芝麻智能在今年4月又發布了2021年國產最強車規級自動駕駛晶元華山二號系列最新款A1000 Pro,這是國內目前唯一能夠滿足ISO 26262 ASIL D級別功能安全要求的大算力晶元。同時, 經過一年的打磨,隨著工藝的穩定,性能的優化以及配套軟體的成熟,華山二號A1000 算力最高可達到INT8下58TOPS,INT4下116TOPS。黑芝麻智能也因此成了國內唯一已經推出兩款滿足ISO26262功能安全標準的高算力晶元廠商。
從性能來看,A1000 Pro基於兩大自研核心IP——車規級圖像處理器NeuralIQ ISP以及DynamAI NN車規級低功耗神經網路加速引擎打造,得益於DynamAI NN大算力架構, A1000 Pro 支持INT8稀疏加速,算力達到106 TOPS,最高可達196 TOPS,繼續保持國內最高算力自動駕駛算力晶元的位置。
與此同時, A1000 Pro內置高性能GPU可以支持高清360度3D全景影像渲染, 能夠覆蓋L3/L4高級別自動駕駛功能,支持從泊車、城市內部到高速等場景。
此外,晶元要實現高速處理數據任務,數據的傳輸速率是關鍵。 A1000 Pro內部可以配置不同數據通路和運算機制,在晶元內部部署互為冗餘的雙套系統和安全島校驗。 基於內部多核心建立高速通信通路,A1000 Pro大幅提高數據傳輸效率。
對於在不到1年的時間內就迅速實現A1000 Pro晶元從研發到成功流片,楊宇欣表示,「A1000 Pro是基於A1000核心進行設計優化和性能提升,這樣可以用更短的時間來推出更高算力的產品;其次, 我們採用業界創新先進封裝工藝集成多個核心,解決了在16nm工藝下支持超大規模深度學習引擎的難題; 此外,我們FAD全自動駕駛平台的軟體平台,可以實現多核心任務調度來提高晶元的效率。」
更讓人期待的是,據楊宇欣透露, 目前A1000 Pro已經在系統上跑起來了,預計今年9、10月份能交付客戶,計劃於2022年底實現車型量產上市。
深耕國內 汽車 市場,做更懂本土需求的智能平台
在自動駕駛競爭中,概念車量產與規模化應用將是角逐的焦點。車企要提升智能應用的落地,需要來自晶元廠商密切配合,為其應用方案需求提供定製化的底層硬體支持。
因此, 自動駕駛晶元以及計算平台的本土化更符合國內市場需求。 作為行業領先的車規級自動駕駛計算晶元和平台研發企業,黑芝麻智能目前能針對國內市場需求,提供完整的解決方案。在「軟體定義 汽車 」的商業模式下,除了晶元外,黑芝麻智能還開發了FAD全自動駕駛平台的智能開發平台。
FAD 全自動駕駛平台包含完善的工具鏈開發包及應用支持,內置50多種AI參考模型庫轉換用例,不僅可以幫助客戶降低演算法開發門檻,還可以幫助客戶快速移植模型和部署落地的一體化流程。
據介紹,A1000 Pro支持黑芝麻智能最新的FAD 全自動駕駛平台,FAD全自動駕駛平台包含業界領先的面向分布式計算的自動駕駛中間件,能夠適配多種標准協議和操作系統,並提供軟體全生命周期的管理。在A1000Pro系統中,任務可以在多個子系統之間動態遷移,具有易開發、高可用、零拷貝等特性,提升演算法的效率與靈活性。
對於FAD 全自動駕駛平台的意義,楊宇欣指出:「客戶開發自動駕駛的過程中,每個客戶都有自己的技術方案訴求,所以我們一直主打開放。這其中包含了兩個層面的開放, 一是軟體工具鏈體系的開放, 這個可以讓客戶去在上面進行更多的定製化。 二是生態的開放, 客戶在這個平台上可以選擇不同的合作夥伴,比如說不同的演算法廠商、核心供應鏈的核心器件廠商,我們的平台都可以支持。所以, 從這兩個層面來看,我們能夠滿足現在車廠在做自動駕駛過程中的各種各樣訴求。 」
從這個層面來看, 黑芝麻智能是運用底層技術賦能行業,通過打造更懂本土客戶需求的智能平台,並且基於底層計算平台形成一個開放的生態。 目前,黑芝麻智能已經與東風、一汽、蔚來、上汽、博世等主機廠及Tier1企業達成合作。
對於自動駕駛的展望,楊宇欣說道:「各家車廠都在積極做下一代架構自動駕駛,因為車廠現在也開始『軍備競賽』,其中包括了軟體、演算法,以及新的電子信息架構技術的比拼。現在車企都在規劃下一代智能 汽車 架構,這個非常考驗各家車廠對未來技術方向的把握和推動力。」
(校對/落日)
㈥ 淺談多核心CPU和SoC晶元及其工作原理
姓名:呂紅霞;學號:20011210203;學院:通信工程學院
轉自https://mp.weixin.qq.com/s/rULXlihPLhZCjnGhbMbCMg
【嵌牛導讀】 本文講解了多核心CPU和SoC晶元及其工作原理
【嵌牛鼻子】 多核CPU,進程,線程
【嵌牛提問】 現在的CPU或SoC基本都是在單晶元中集成多個CPU核心,形成通常所說的4核、8核或更多核的CPU或SoC晶元。為什麼要採用這種方式?多個CPU 核心在一起是如何工作的?CPU核心越多就一定越好嗎?
【嵌牛正文】
要說明什麼是多核心CPU或SoC晶元,首先要從CPU核心(Core)說起。我們知道,CPU是中央處理器(Central Processing Unit)的英文簡稱,它具有控制和信息處理的能力,是電腦和智能設備的控制中樞。如果把傳統CPU晶元中的封裝和輔助電路(例如引腳的介面電路、電源電路和時鍾電路等)排除在外,只保留完成控制和信息處理功能的核心電路,這部分電路就是 CPU核心 ,也簡稱CPU核。一個CPU核心基本上是一個完全獨立的處理器,它可以從內部存儲器中讀取指令,並執行指令指定的控制和計算任務。
如果把 一個 CPU核心和相關輔助電路封裝在一個晶元中,這個晶元就是傳統的 單核心CPU晶元 ,簡稱單核CPU。如果把 多個 CPU核心和相關輔助電路封裝在一個晶元中,這個晶元就是 多核心CPU晶元 ,簡稱多核CPU。當然,多核心CPU晶元會包含更多的輔助電路,以解決多個CPU核心之間的通信和協調問題。
如果在多核心CPU晶元中再集成一些其它功能部件和介面電路,就形成了完整的系統,那麼這個晶元就變成了 多核心SoC晶元 了,簡稱多核SoC。在不嚴格區分的情況下,SoC也可以稱為CPU。
發展多核心CPU的初心源於「人多力量大」的簡單道理。從這個意義上來看,當初晶元集成度不高的時候,Inteli8086 CPU和i8087協處理器應該算是多核心CPU的雛形,是 多晶元協作形成了一個處理核心 ,需要採取許多技術來解決CPU和協處理器之間的合作、協作問題。
今天晶元的集成度很高,單晶元中集成幾個甚至幾十個CPU核心已不在話下,但還是不能滿足超級計算的需要,需要在超級計算機中使用成千上萬塊高性能CPU晶元一起合作、協作,這可以看作 晶元內 多核心、 晶元外 多晶元的多核心CPU集群。
CPU晶元從外觀上看是一塊晶元,但打開封裝來看,內部可能只有一塊裸片(die),也可能是多塊裸片封裝在一起,稱為 多晶元模組 (Multichip Mole,簡稱 MCM ),如圖2b所示。但從軟體角度來看,封裝形式無關緊要,無論是晶元內還是晶元外,CPU核心多少才是最重要的,它們決定著系統的並行運算和處理能力,它們的主頻頻率和核心之間通信方式決定了系統的處理速度。
另外,今天的桌面計算機CPU、手機SoC中還集成了許多圖形處理器(GPU)核心、人工智慧處理器(APU)核心等,這些是否也應該算作多核心CPU和SoC中的「核心」呢?我覺得從廣義角度上應該算吧。
因此,要回顧多核心CPU的發展,大致可以分為 1 .雛形期; 2 . 單晶元單核心; 3 .單晶元多核心; 4 .單核心多晶元; 5 .多核心多晶元幾種情形。這些發展階段不一定按照這個前後順序,可能有交叉時期,也可能有前後顛倒的情形。第2和第3種情形一般是應用在桌面計算機、智能手機等移動終端上的CPU晶元,第4和第5種是應用在伺服器和超級計算機上的CPU晶元。本文限於篇幅和主題集中的需要,主要探討第3種 單晶元多核心 的情況,這種情況下的CPU是 單晶元多處理器 (Chip Multi Processors,簡稱 CMP )模式。
1971 ~2004年,單核心CPU一路獨行 。Intel公司1971年推出全球首款CPU晶元i4004,直到2004年推出超線程的Pentium 4 CPU系列,期間共33年時間。在這期間,CPU晶元很好地沿著摩爾定律預示的規律發展,沿著集成度不斷翻倍、主頻不斷提升、晶體管數量快速增加的道路前進,這是一條單核心CPU不斷迭代升級的發展之路。
但是,當晶體管數量大幅增加導致功耗急劇增長,CPU晶元發熱讓人難以接受,CPU晶元可靠性也受到很大影響的時候,單核心CPU發展似乎到了窮途末路。摩爾定律的提出者 戈登.摩爾 也依稀覺得「尺寸不斷縮小」、「主頻為王」這條路子即將走到盡頭。2005年4月他曾公開表示,引領晶元行業接近40年的摩爾定律將在10~20年內失效。
其實,早在上世紀90年代末,就有許多業界人士呼籲用CMP技術實現的多核心CPU替代單線程單核心CPU。IBM、惠普、Sun等高端伺服器廠商,更是相繼推出了多核心伺服器CPU。但是,由於伺服器CPU晶元價格太高、應用面較窄,並未引起大眾廣泛關注。
2005年初AMD搶先推出了64位CPU晶元,並率先Intel發表聲明保證其64位CPU的穩定性和兼容性,Intel才想起了利用「多核心」這一武器進行「帝國反擊戰」。2005年4月,Intel倉促推出簡單封裝的2核心Pentium D和Pentium4至尊版840。之後不久,AMD也發布了雙核心皓龍(Opteron)和速龍(Athlon)CPU晶元[9]。
2006 年被認為是多核心CPU的元年 。這年7月23日,Intel基於酷睿(Core)架構的CPU發布。11月,Intel又推出了面向伺服器、工作站和高端PC機的至強(Xeon)5300和酷睿2雙核心和4核心至尊版系列CPU。與上一代台式機CPU相比,酷睿2雙核心CPU在性能方面提高40%,功耗反而降低40%。
作為對Intel的回應,7月24日,AMD宣布對雙核Athlon64 X2處理器進行大降價。兩大CPU巨頭在宣傳多核心CPU時,都會強調其節能效果。Intel發布的低電壓版4核心至強CPU功耗僅為50瓦。而AMD的「Barcelona」4核心CPU的功耗也沒超過95瓦。在Intel高級副總裁Pat Gelsinger看來,摩爾定律還是有生命力的,因為「CPU從單核心到雙核心,再到多核心的發展,可能是摩爾定律問世以來,CPU晶元性能提升最快的時期」 [9]。
CPU 技術發展要比軟體技術發展更快 ,軟體對多核心CPU的支持相對滯後。如果沒有操作系統的支持,多核心CPU的性能提升優勢不能發揮出來。同樣運行Win7的情況下,4核心CPU和8核心CPU所帶來的差異化體驗並不明顯,導致這種情況的原因是Win7根本沒有對8核心CPU進行相應的優化。而在Win10出來後,8核心CPU所帶來的體驗速度就明顯要比4核心處理器快很多,這源於微軟在Win10上對多核心CPU的支持做了優化。而且微軟還將在Win10上針對多核心CPU做進一步適配優化。
目前 核心最多的伺服器CPU 有Intel至強鉑金9282,56核心112線程,引線焊球多達5903個,估計售價約4萬美元;AMD霄龍 7H12,64核心128線程,散熱設計功耗280W。這兩款CPU都需要採用液冷散熱。 核心最多的台式機CPU 有Intel酷睿i97980XE至尊版,18核心36線程,散熱設計功耗165W,售價1999美元;AMD的Ryzen9 5950X,16核心32線程,散熱設計功耗105W,售價6049元。 核心最多的手機SoC 有Apple M1、麒麟9000、高通驍龍 888等。多核心CPU或者多核心SoC似乎成為一種潮流,但是不是核心越多CPU就越好呢?在不考慮其它因素影響,單從技術和集成度考慮的話,有人甚至預測到2050年,人們可能會用上1024個核心的CPU晶元。
我們先從任務處理的角度來看這個問題。如果把CPU處理的事情叫做任務的話,以前的CPU只有一個核心,CPU只會「一心一用」地處理一個任務,幹完一件事再接著干下一件事。專業上稱之為 串列單任務處理 。這在DOS操作系統的時代是合適的,這個時期對CPU的追求只有一條,那就是處理速度要盡可能地快。在Windows操作系統出現後,出現了多任務的處理需求,要求CPU可以「一心多用」,同時干多件事情。專業上稱之為 分時多任務處理 。這個時期對CPU的追求 一是 處理速度要盡可能地快, 二是 同時可處理的任務盡可能地多。其實這種「一心多用」的處理方法是把時間分配給了多個任務,從宏觀上看CPU處理的任務多了,但從某項任務來看CPU對該項任務的處理速度變慢了。
要實現CPU處理的任務更多、處理速度更快,人們自然想到了在晶元中集成多個CPU核心,採用「多心多用」的方式處理事務,因而就出現了多核心CPU的需求,而這種需求在伺服器CPU應用方面顯得尤為迫切。
我們再從提高CPU時鍾頻率,加快處理速度的角度來看這個問題。無論是「一心一用」、「一心多用」、還是「多心多用」,只要提高了CPU的時鍾頻率,CPU的處理速度都會加快。如論是單任務還是多任務,就會在更短時間完成任務。因此,CPU發展的歷史就是隨著晶元技術的進步,CPU的時鍾頻率不斷提升的歷史,從早期的MHz級別不斷提升到目前的GHz級別,大約提升了1000倍左右。無論是單核心還是多核心,CPU時鍾頻率是人們選用CPU晶元的重要指標。
過去很長一段時間里,隨著Intel和AMD CPU速度越來越快,x86操作系統上的軟體的性能和速度自然會不斷提高,系統整機廠家只要對現有軟體作輕微設置就能坐享電腦系統整體性能提升的好處。
但是隨著晶元工藝沿著摩爾定律發展,CPU集成度提高、晶體管密度加大,時鍾頻率提升,直接導致CPU晶元的功率不斷增大,散熱問題成為一個無法逾越的障礙。據測算,CPU主頻每增加1GHz,功耗將上升25瓦,而在晶元功耗超過150瓦後,現有的風冷散熱將無法滿足要求。2003年前後Intel推出的主頻為3.4GHz的Pentium4至尊版CPU晶元,最高功耗已達135瓦,有人給它送了一個「電爐」的綽號,更有好事者用它來玩煎蛋的游戲。現在的伺服器CPU晶元Xeon W-3175標稱功耗為255W,默認頻率實測能達到380W,超頻的話甚至會突破500W,必須採用高端水冷系統來降溫。
所以,功耗極限制約著CPU頻率的提升。下圖是CPU功率密度隨時間的變化趨勢圖,IntelPentium之後的CPU晶元,由於晶體管密度和時鍾頻率提升,CPU晶元的功率密度陡然上升,CPU產生的熱量將會超過太陽表面。
綜上所述,追求多任務處理功能,追求處理速度提升是CPU晶元設計的兩大目標。以提升CPU時鍾頻率而加快處理速度又受到CPU功耗極限的制約,多核心CPU晶元成為解決上述矛盾的必由之路。目前,多核心CPU和SoC已成為處理器晶元發展的主流。
與單核心CPU相比,多核心CPU在體系結構、軟體、功耗和安全性設計等方面面臨著巨大的挑戰,但也蘊含著巨大的潛能。本文參考了後附的參考資料1,對多核心CPU用到的技術作如下簡單介紹。
1. 超線程技術
一個傳統CPU核心只有一個運算處理單元(Processing Unit,簡稱PU)和一個架構狀態單元(Architectual State,簡稱AS),在同一時間只能處理一個軟體線程(Thread)。採用了 超線程 (Hyper-Threading,簡稱 HT )技術的CPU核心中包含一個PU和兩個AS,兩個AS共用這個PU。軟體在CPU核心上運行時,AS與軟體線程對接,並把線程的任務分配到PU中的相關單元中。所以,兩個AS就可以處理兩個軟體線程。
用生產車間打個比方,PU是生產部門,有幾台機床用於生產;AS是跟單員,他同時只能跟一個任務訂單;軟體線程好比是任務訂單。如果生產車間只有一個AS時,這個車間同時只能處理一個任務訂單,PU的有些機床有事干,有些機床可能無事干而閑置。如果有兩個AS時,就能處理兩個任務訂單,並把任務分配到不同的機床上去完成。
所以,具有超線程的CPU核心的集成度增加量不大,但有兩個AS後使它看起來像兩個邏輯的CPU核心,就可以同時處理兩個軟體線程,大約可以提高40%的處理能力。所以,我們經常可以看到CPU晶元廣告,說某多核心CPU晶元是N個核心,2×N個線程,就是採用了超線程帶來的好處。否則,如果沒有採用超線程技術的話,多核心CPU晶元參數就只能寫成N個核心,N個線程。下圖給出了2核心CPU無超線程和有超線程的示意圖。
2. 核心結構研究
多核心CPU的結構分成 同構 (homogeneous)多核和 異構 (heterogeneous)多核兩類,同構多核是指晶元內多個CPU核心的結構是相同的,而異構多核是指晶元內多個CPU核心的結構各不相同。面對不同的應用場景,研究核心結構的實現方式對CPU整體性能至關重要。核心本身的結構,關繫到整個晶元的面積、功耗和性能。怎樣繼承和發展傳統CPU的成果,也直接影響多核的性能和實現周期。同時,核心所用的指令系統對系統的實現也是很重要的,多核心採用相同的指令系統還是不同的指令系統,能否運行操作系統等,也是設計者要研究的重要問題。
3.Cache 設計技術
CPU和主存儲器之間的速度差距對多核心CPU來說是個突出的矛盾,因此必須使用多級Cache來緩解。可分為共享一級Cache、共享二級Cache和共享主存三種方式。多核心CPU一般採用共享二級Cache的結構,即每個CPU核心擁有私有的一級Cache,並且所有CPU核心共享二級Cache。
Cache本身的體系結構設計直接關繫到系統整體性能。但是在多核心CPU中,共享Cache或獨有Cache孰優孰劣、是否在片上建立多級Cache、以及建立幾級Cache等,對整個晶元尺寸、功耗、布局、性能以及運行效率等都有很大的影響,需要認真研究和慎重對待。同時還要考慮多級Cache引發的一致性問題。
4. 核心間通信技術
多核心CPU的各核心同時執行程序,有時需要在核心之間進行數據共享與同步,因此硬體結構必須支持CPU核心間的通信。高效通信機制是多核心CPU高性能的重要保障,比較主流的片上高效通信機制有兩種, 一種 是基於匯流排共享的Cache結構,另 一種 是基於片上的互連結構。
匯流排共享Cache結構 是指每個CPU核心擁有共享的二級或三級Cache,用於保存比較常用的數據,並通過核心間的連接匯流排進行通信。它的優點是結構簡單,通信速度高,缺點是基於匯流排的結構可擴展性較差。
片上互連的結構 是指每個CPU核心具有獨立的處理單元和Cache,各個CPU核心通過交叉開關電路或片上網路等方式連接在一起。各個CPU核心間通過消息進行通信。這種結構的優點是可擴展性好,數據帶寬有保證,缺點是硬體結構復雜,且軟體改動較大。
5. 匯流排設計技術
傳統CPU中,Cache不命中或訪問存儲器事件都會對CPU的執行效率產生負面影響,而匯流排介面單元(BIU)的工作效率會決定此影響的程度。在多核心CPU中,當多個CPU核心同時要求訪問內存,或多個CPU核心內私有Cache同時出現Cache不命中事件時,BIU對這些訪問請求的仲裁機制效率,以及對外存儲訪問的轉換機制的效率決定了多核心CPU系統的整體性能。
6. 針對多核心的操作系統
對於多核心CPU,優化操作系統的 任務調度 是提升執行效率的關鍵。任務調度演算法有 全局 隊列調度和 局部 隊列調度之分。前者是指操作系統維護一個全局的任務等待隊列,當系統中有一個CPU核心空閑時,操作系統就從全局任務等待隊列中選取就緒任務開始在此核心上執行。其優點是CPU核心利用率較高。後者是指操作系統為每個CPU核心維持一個局部的任務等待隊列,當系統中有一個CPU核心空閑時,便從該核心的任務等待隊列中選取就緒任務來執行。其優點是有利於提高CPU核心局部Cache命中率。大多數的多核心CPU操作系統採用的是基於全局隊列的任務調度演算法。
多核心CPU的中斷處理和單核CPU有很大不同。CPU核心之間需要通過中斷方式進行通信和協調,所以,CPU核心的本地中斷控制器和仲裁各CPU核心之間中斷的全局中斷控制器需要封裝在晶元內部。
另外,多核心CPU操作系統是一個多任務系統。由於不同任務會競爭共享資源,因此需要系統提供同步與互斥機制。而傳統的用於單核心CPU的解決機制並不能滿足多核心的情況,需要利用硬體提供的「讀-修改-寫」的原始操作或其他同步互斥機制來進行保證。
7. 低功耗設計技術
每兩三年CPU晶體管密度和功耗密度都會翻倍。低功耗和熱優化設計已經成為多核心CPU設計的重點。需要同時在操作系統級、演算法級、結構級、電路級等多個層次上考慮。每個層次上實現的效果不同,抽象層次越高,功耗和溫度降低的效果越明顯。
8. 可靠性及安全性設計技術
在今天的信息社會,CPU的應用無處不在,對CPU的可靠性和安全性提出了更高要求。一方面多核心CPU復雜性提高,低電壓、高主頻、高溫度對維持晶元安全運行帶來挑戰。另一方面,來自外界惡意攻擊越來越多,手段越來越先進,高可靠、安全性設計技術越來越受到重視。
要弄明白多核心CPU是如何工作,要從應用程序、操作系統和CPU核心一起來分析。Windows操作系統作為任務調度者,按照 進程 (Process)和 線程 (Thread)為應用程序(Program)分配程序執行的硬體資源——CPU核心。一個進程對應一個應用程序,但是一個應用程序可以同時對應多個進程,通過多個進程來完成這個程序的執行。
應用程序未執行的時候是「靜態」的,程序一旦被用戶啟動執行,就被操作系統接管變成「動態」的了。操作系統按照一個一個的 進程 管理著一批被用戶啟動了的程序。所以一個 進程 可以看作是一個「執行中的程序」,進程中包括了由操作系統分配給這個程序的基本資源。
一個進程又被細分為多個 線程 ,只有 線程 才能通過操作系統獲得CPU核心的使用許可權來讓自己運行。只包含一個線程的進程可以叫做 單線程 程序,如果包含多個線程的進程,就可以叫做 多線程 程序了。
程序的線程要想獲得CPU時間,必須進入操作系統的線程隊列排隊,經過操作系統調度之後,獲得某個CPU核心的執行時間。操作系統對CPU核心的分派是非常復雜的過程,誰也無法用簡短的文字說清楚具體詳細的過程。以下按單核心CPU和4核心CPU兩種情況來示意說明,程序進程的一個個線程,是如何分派到CPU核心上進行執行的[7]。
如果CPU是單核心的話,而且沒有採取超線程技術,線程隊列就只有1個,線程的選擇也只有1個。如果採取了超線程技術,單核心就擴展成2個邏輯核心,線程隊列就有2個,線程的選擇就有2個。
如果站在多核心CPU角度看,每個CPU核心不斷從操作系統收到要執行的軟體線程,按照程序指令去完成規定任務,它可能要使用存儲器、運算器、輸入輸出等部件,還要與其它CPU核心進行通信和傳遞數據,完成任務後還要報告。這些過程可看成一個一個的事件,都要通過事件中斷處理部件來協調。多核心CPU的硬體調度處理模式大致有三種[8][18]。
1. 對稱多處理 (Symmetric Multi-Processing,簡稱 SMP )是目前使用最多的模式。在SMP模式下,一個操作系統同等地管理著各個CPU核心,並為各個核心分配工作負載。目前,大多數的操作系統都支持SMP模式,例如Linux,Windows,Vxworks等。另外,這種模式通常用在同構多核CPU上,因為異構多核CPU的結構不同,實現SMP比較復雜。
2. 非對稱多處理 (Asymmetric Multi-Processing,簡稱 AMP )是指多個核心相對獨立地運行著不同的任務,每個核心可能運行不同的操作系統或裸機程序,或者不同版本的操作系統,但是有一個 主導 的CPU核心,用來控制其它 從屬 的CPU核心以及整個系統。這種模式大多情況是異構多核心CPU。例如MCU + DSP,MCU +FPGA等。當然,同構多核心CPU也可以用。
3. 邊界多處理 (Bound Multi-processing,簡稱 BMP )與SMP基本相同,唯一區別是開發者可以定義某個任務僅在某個CPU核心上執行。
以上只是原理性的簡單介紹,如果要了解多核心CPU的硬體調度原理和實現細節,恐怕只能打進Intel或AMD公司內部,才能了解更多技術詳情。
多核心CPU中的核心是否越多越好,多CPU系統中的CPU晶元是否也越多越好?同樣條件下是否具有超線程就比不具有超線程的好?回答是仁者見仁,智者見智。主要是要分清用在哪些場合,不能一概而論。
首先,多核心CPU或者多CPU之間需要同步和調度,這是以時間開銷和算力損耗為代價的。如果CPU核心數或者CPU晶元數增加對系統處理能力提升是加分項的話,同步和調度帶來的時間開銷和算力損耗就是減分項。如果加分大於減分,而且成本增加可接受的話,則方案是可行的,否則就是不值當的方案。系統方案的評判除了要考慮CPU核心數量以外,還要考慮操作系統的差異、調度演算法的不同,應用和驅動程序特點等因素,它們共同影響著系統的處理速度。以下是一些文章的討論觀點。
1 . CPU核心越多,執行速度不一定越快。這里說的是「不一定」,因為一個線程可能要等待其它線程或進程完成後,才能輪到它繼續執行。在它等待別的線程或進程的時候,即便排隊隊列輪到了它,它也只能放棄運行權利而繼續等待,讓隊列後續線程超過它在CPU上執行。對它這個線程的程序來說是變慢了,但對系統來說,它起碼它讓開了位置讓其它線程繼續運行。多核心CPU肯定可以加速批量進程的執行,但對某個進程或者某類型的程序來說,未必是最快的。
2 .智能手機要向用戶提供優秀的使用體驗,不僅僅是靠CPU性能一個方面。除了CPU核心數這個因素以外,還應包括決定通信質量的基帶晶元的性能,再加上GPU的性能、游戲和VR應用性能等。系統綜合性能好才是真的好。
3 .聯發科2015年推出10核心、3重架構等手機SoC晶元技術,後來又開發了10核心、4重架構helio X30,通過多重架構的方式來降低功耗。雖然聯發科在多核心SoC方面的技術優勢是毋庸置疑,但是高通在2015年底推出了僅有四個核心的驍龍820晶元,蘋果手機較早使用的SoC晶元也不過是雙核心而已。這些都表明,對於智能手機而言,多核心CPU或SoC的意義到底大不大,不可絕對斷言,需要從系統角度分析才能得出正確結論。
結語 :多核心CPU和SoC是為了滿足整機系統對處理能力和處理速度不斷提升的需求,在單核心CPU沿著摩爾定律向前發展,受到了晶元功率極限阻礙時,人們不得不選擇的一種突破路線。多核心CPU推動著操作系統的更新和升級,操作系統又決定了多核心CPU效能的發揮。多核心CPU技術的難點是多核心之間的信息傳遞、數據同步和任務調度等。系統性能優劣不能只考慮CPU核心數量,還要考慮操作系統、調度演算法、應用和驅動程序等。多核心CPU技術和FinFET等3D晶元技術可以看作是延續摩爾定律生命的兩大關鍵技術。
㈦ 自動駕駛之蔚來篇——「起步失速」的蔚來正在加碼自動駕駛研發!
傳統車企以發動機、變速箱以及整車調校等方麵塑造競爭優勢;新四化趨勢下,不少新造車勢力選擇以電動化切入,以智能科技為核心優勢,企圖換道超車。
經過多年發展,蔚來、小鵬、理想三家已成功在美股上市,跑贏第一輪淘汰賽。那麼從技術的角度來看,三強中誰才是自動駕駛能力最強的車企?今天,編輯將從感知硬體、晶元算力、實現功能、研發布局四個方面來評價,分析誰才是最具智能科技的中國品牌!
蔚來篇:代表車型蔚來EC6
EC6是ES6的轎跑版本,也是蔚來汽車當前在售車型中智能化程度最高的一款。
任少卿對計算機視覺領域有著深刻的理解,他曾在2016年拿下計算機視覺領域頂級會議CVPR的BestPaperAward。在《2018年度自動駕駛谷歌學術引用榜》中,任少卿自動駕駛方向累計學術引用全球第二。
任少卿的加入只是李斌NIOPilot自主研發復興計劃的第一步,面對遙遙領先的特斯拉,蔚來明白僅有任少卿一個人還是不夠的。
緊接著,蔚來又提拔了一位年輕高管——自動駕駛總監章健勇,並設置了自動駕駛團隊雙AVP。
據悉,章健勇是蔚來早期員工,曾在2013年-2014年間在上汽集團負責自動駕駛前期開發工作。他此前的匯報對象是北美原蔚來自動駕駛VPJamieCarlson,後者已於今年6月份離職。
除了軟體演算法自研之外,蔚來向特斯拉一樣,廣泛布局智能化產業鏈。
有消息稱,在晶元自研方面,原小米晶元和前瞻研究部門總經理白劍與10月初入職蔚來任智能硬體副總裁,隨後開始在車主內部進行調研,詢問車主希望蔚來的晶元支持哪些功能。
2020年11月30日,有媒體報道稱:「蔚來內部正式確定L4級自動駕駛自研項目,由8月加入的助理副總裁(AVP)任少卿負責」,對此,蔚來對此既沒有辟謠也沒有承認。但可以基本確定,起步失速的蔚來汽車,現又重新走上了自動駕駛自研的道路。
本文來源於汽車之家車家號作者,不代表汽車之家的觀點立場。