導航:首頁 > 礦池算力 > 數據處理模型算力

數據處理模型算力

發布時間:2023-01-01 12:41:52

『壹』 人工智慧需要什麼基礎

人工智慧(AI)基礎:

1、核心三要素——算力、演算法、數據(三大基石):

演算法、算力、數據作為人工智慧(AI)核心三要素,相互影響,相互支撐,在不同行業中形成了不一樣的產業形態。隨著演算法的創新、算力的增強、數據資源的累積,傳統基礎設施將藉此東風實現智能化升級,並有望推動經濟發展全要素的智能化革新。讓人類社會從信息化進入智能化。

2、技術基礎:

(1)文藝復興後的人工神經網路。

人工神經網路是一種仿造神經元運作的函數演算,能接受外界資訊輸入的刺激,且根據不同刺激影響的權重轉換成輸出的反應,或用以改變內部函數的權重結構,以適應不同環境的數學模型。

(2)靠巨量數據運作的機器學習。

科學家發現,要讓機器有智慧,並不一定要真正賦予它思辯能力,可以大量閱讀、儲存資料並具有分辨的能力,就足以幫助人類工作。

(3)人工智慧的重要應用:自然語言處理。

自然語言處理的研究,是要讓機器「理解」人類的語言,是人工智慧領域里的其中一項重要分支。

自然語言處理可先簡單理解分為進、出計算機等兩種:

其一是從人類到電腦──讓電腦把人類的語言轉換成程式可以處理的型式;

其二是從電腦回饋到人──把電腦所演算的成果轉換成人類可以理解的語言表達出來。

『貳』 算力可貴,效率價高:智算中心憑啥是築基新基建的最優解

在「新基建」浪潮下,人工智慧正成為經濟增長的新引擎,各行各業開啟智能化升級轉型。算力在其中扮演了重要角色,是國家未來競爭力的集中體現。但事實是,在發展的過程中,高速增長的海量數據與更加復雜的模型,正在為算力帶來更大的挑戰,主要體現為算力不足,效率不高。


算力誠可貴:數據、演算法需要更多算力支撐


眾所周知,在人工智慧發展的三要素中,無論是數據還是演算法,都離不開算力的支撐,算力已成為人工智慧發展的關鍵要素。


IDC發布的《數據時代2025》報告顯示,2018年全球產生的數據量為33ZB (1ZB=1萬億GB),到2025年將增長到175ZB,其中,中國將在2025年以48.6ZB的數據量及27.8%的佔比成為全球最大的數據匯集地。



另據賽迪顧問數據顯示,到2030年數據原生產業規模量占整體經濟總量的15%,中國數據總量將超過4YB,佔全球數據量30%。數據資源已成為關鍵生產要素,更多的產業通過利用物聯網、工業互聯網、電商等結構或非結構化數據資源來提取有價值信息,而海量數據的處理與分析對於算力的需求將十分龐大。



演算法上,先進模型的參數量和復雜程度正呈現指數級的增長趨勢。此前 Open AI 發表的一項研究就顯示,每三到四個月,訓練這些大型模型所需的計算資源就會翻一番(相比之下,摩爾定律有 18 個月的倍增周期)。2012 至 2018 年間,深度學習前沿研究所需的計算資源更是增加了 30 萬倍。



到2020年,深度學習模型對算力的需求達到了每天百億億次的計算需求。2020年2月,微軟發布了最新的智能感知計算模型Turing-NLG,參數量高達到175億,使用125POPS AI計算力完成單次訓練就需要一天以上。隨後,OpenAI又提出了GPT-3模型,參數量更達到1750億,對算力的消耗達到3640 PetaFLOPS/s-day。而距離GPT-3問世不到一年,更大更復雜的語言模型,即超過一萬億參數的語言模型SwitchTransformer即已問世。


由此可見,高速增長的海量數據與更加復雜的模型,正在給算力帶來更大的挑戰。如果算力不能快速增長,我們將不得不面臨一個糟糕的局面:當規模龐大的數據用於人工智慧的訓練學習時,數據量將超出內存和處理器的承載上限,整個深度學習訓練過程將變得無比漫長,甚至完全無法實現最基本的人工智慧。


效率價更高:環境與實際成本高企,提升效率迫在眉睫


在計算工業行業,有個假設是「數字處理會變得越來越便宜」。但斯坦福人工智慧研究所副所長克里斯托弗•曼寧表示,對於現有的AI應用來說卻不是這樣,特別是因為不斷增加的研究復雜性和競爭性,使得最前沿模型的訓練成本還在不斷上升。


根據馬薩諸塞大學阿默斯特校區研究人員公布的研究論文顯示,以常見的幾種大型 AI 模型的訓練周期為例,發現該過程可排放超過 626000 磅二氧化碳,幾乎是普通 汽車 壽命周期排放量的五倍(其中包括 汽車 本身的製造過程)。



例如自然語言處理中,研究人員研究了該領域中性能取得最大進步的四種模型:Transformer、ELMo、BERT和 GPT-2。研究人員在單個 GPU 上訓練了至少一天,以測量其功耗。然後,使用模型原始論文中列出的幾項指標來計算整個過程消耗的總能量。


結果顯示,訓練的計算環境成本與模型大小成正比,然後在使用附加的調整步驟以提高模型的最終精度時呈爆炸式增長,尤其是調整神經網路體系結構以盡可能完成詳盡的試驗,並優化模型的過程,相關成本非常高,幾乎沒有性能收益。BERT 模型的碳足跡約為1400 磅二氧化碳,這與一個人來回坐飛機穿越美洲的排放量相當。



此外,研究人員指出,這些數字僅僅是基礎,因為培訓單一模型所需要的工作還是比較少的,大部分研究人員實踐中會從頭開發新模型或者為現有模型更改數據集,這都需要更多時間培訓和調整,換言之,這會產生更高的能耗。根據測算,構建和測試最終具有價值的模型至少需要在六個月的時間內訓練 4789 個模型,換算成碳排放量,超過 78000 磅。而隨著 AI 算力的提升,這一問題會更加嚴重。


另據 Synced 最近的一份報告,華盛頓大學的 Grover 專門用於生成和檢測虛假新聞,訓練較大的Grover Mega模型的總費用為2.5萬美元;OpenAI 花費了1200萬美元來訓練它的 GPT-3語言模型;谷歌花費了大約6912美元來訓練 BERT,而Facebook針對當前最大的模型進行一輪訓練光是電費可能就耗費數百萬美元。


對此,Facebook人工智慧副總裁傑羅姆•佩森蒂在接受《連線》雜志采訪時認為,AI科研成本的持續上漲,或導致我們在該領域的研究碰壁,現在已經到了一個需要從成本效益等方面考慮的地步,我們需要清楚如何從現有的計算力中獲得最大的收益。


在我們看來,AI計算系統正在面臨計算平台優化設計、復雜異構環境下計算效率、計算框架的高度並行與擴展、AI應用計算性能等挑戰。算力的發展對整個計算需求所造成的挑戰會變得更大,提高整個AI計算系統的效率迫在眉睫。


最優解:智算中心大勢所趨,應從國家公共設施屬性做起


正是基於上述算力需求不斷增加及所面臨的效率提升的需要,作為建設承載巨大AI計算需求的算力中心(數據中心)成為重中之重。


據市場調研機構Synergy Research Group的數據顯示,截至到2020年第二季度末,全球超大規模數據中心的數量增長至541個,相比2015年同期增長一倍有餘。另外,還有176個數據中心處於計劃或建設階段,但作為傳統的數據中心,隨之而來的就是能耗和成本的大幅增加。



這里我們僅以國內的數據中心建設為例,現在的數據中心已經有了驚人的耗電量。據《中國數據中心能耗現狀白皮書》顯示,在中國有 40 萬個數據中心,每個數據中心平均耗電 25 萬度,總體超過 1000 億度,這相當於三峽和葛洲壩水電站 1 年發電量的總和。如果折算成碳排放則大概是 9600 萬噸,這個數字接近目前中國民航年碳排放量的 3 倍。


但根據國家的標准,到2022年,數據中心平均能耗基本達到國際先進水平,新建大型、超大型數據中心的 PUE(電能使用效率值,越低代表越節能)達到 1.4 以下。而且北上廣深等發達地區對於能耗指標控制還非常嚴格,這與一二線城市集中的數據中心需求形成矛盾,除了降低 PUE,同等計算能力提升伺服器,尤其是數據中心的的計算效率應是正解。


但眾所周知的事實是,面對前述龐大的AI計算需求和提升效率的挑戰,傳統數據中心已經越來越難以承載這樣的需求,為此,AI伺服器和智算中心應運而生。


與傳統的伺服器採用單一的CPU不同,AI伺服器通常搭載GPU、FPGA、ASIC等加速晶元,利用CPU與加速晶元的組合可以滿足高吞吐量互聯的需求,為自然語言處理、計算機視覺、語音交互等人工智慧應用場景提供強大的算力支持,已經成為人工智慧發展的重要支撐力量。


值得一提的是,目前在AI伺服器領域,我們已經處於領先的地位。


近日,IDC發布了2020HI《全球人工智慧市場半年度追蹤報告》,對2020年上半年全球人工智慧伺服器市場進行數據洞察顯示,目前全球半年度人工智慧伺服器市場規模達55.9億美元(約326.6億人民幣),其中浪潮以16.4%的市佔率位居全球第一,成為全球AI伺服器頭號玩家,華為、聯想也殺入前5(分別排在第四和第五)。


這里業內也許會好奇,緣何中國會在AI伺服器方面領跑全球?



以浪潮為例,自1993年,浪潮成功研製出中國首台小型機伺服器以來,經過30年的積累,浪潮已經攻克了高速互聯晶元,關鍵應用主機、核心資料庫、雲數據中心操作系統等一系列核心技術,在全球伺服器高端俱樂部里佔有了重要一席。在AI伺服器領域,從全球最高密度AGX-2到最高性能的AGX-5,浪潮不斷刷新業界最強的人工智慧超級伺服器的紀錄,這是為了滿足行業用戶對人工智慧計算的高性能要求而創造的。浪潮一直認為,行業客戶希望獲得人工智慧的能力,但需要掌握了人工智慧落地能力的和技術的公司進行賦能,浪潮就可以很好地扮演這一角色。加快人工智慧落地速度,幫助企業用戶打開了人工智慧應用的大門。


由此看,長期的技術創新積淀、核心技術的掌握以及對於產業和技術的准確判斷、研發是領跑的根本。


至於智算中心,去年發布的《智能計算中心規劃建設指南》公布了智能計算中心技術架構,基於最新人工智慧理論,採用領先的人工智慧計算架構,通過算力的生產、聚合、調度和釋放四大作業環節,支撐和引領數字經濟、智能產業、智慧城市和智慧 社會 應用與生態 健康 發展。



通俗地講,智慧時代的智算中心就像工業時代的電廠一樣,電廠是對外生產電力、配置電力、輸送電力、使用電力;同理智算中心是在承載AI算力的生產、聚合、調度和釋放過程,讓數據進去讓智慧出來,這就是智能計算中心的理想目標。


需要說明的是,與傳統數據中心不同,「智算中心」不僅把算力高密度地集中在一起,而且要解決調度和有效利用計算資源、數據、演算法等問題,更像是從計算器進化到了大腦。此外,其所具有的開放標准,集約高效、普適普惠的特徵,不僅能夠涵蓋融合更多的軟硬體技術和產品,而且也極大降低了產業AI化的進入和應用門檻,直至普惠所有人。



其實我們只要仔細觀察就會發現,智算中心包含的算力的生產、聚合、調度和釋放,可謂集AI能力之大成,具備全棧AI能力。


這里我們不妨再次以浪潮為例,看看何謂全棧AI能力?


比如在算力生產層面,浪潮打造了業內最強最全的AI計算產品陣列。其中,浪潮自研的新一代人工智慧伺服器NF5488A5在2020年一舉打破MLPerf AI推理&訓練基準測試19項世界紀錄(保證充足的算力,解決了算力提升的需求);在算力調度層面,浪潮AIStation人工智慧開發平台能夠為AI模型開發訓練與推理部署提供從底層資源到上層業務的全平台全流程管理支持,幫助企業提升資源使用率與開發效率90%以上,加快AI開發應用創新(解決了算力的效率問題);在聚合算力方面,浪潮持續打造更高效率更低延遲硬體加速設備與優化軟體棧;在算力釋放上,浪潮AutoML Suite為人工智慧客戶與開發者提供快速高效開發AI模型的能力,開啟AI全自動建模新方式,加速產業化應用。


那麼接下來的是,智算中心該遵循怎樣的發展路徑才能充分發揮它的作用,物盡其用?


IDC調研發現,超過九成的企業正在使用或計劃在三年內使用人工智慧,其中74.5%的企業期望在未來可以採用具備公用設施意義的人工智慧專用基礎設施平台,以降低創新成本,提升算力資源的可獲得性。


由此看,智能計算中心建設的公共屬性原則在當下和未來就顯得尤為重要,即智能計算中心並非是盈利性的基礎設施,而是應該是類似於水利系統、水務系統、電力系統的公共性、公益性的基礎設施,其將承載智能化的居民生活服務、政務服務智能化。因此,在智能計算中心規劃和建設過程中,要做好布局,它不應該通過市場競爭手段來實現,而要體現政府在推進整個 社會 智能化進程的規劃、節奏、布局。


總結: 當下,算力成為推動數字經濟的根基和我國「新基建「的底座已經成為共識,而如何理性看待其發展中遇到的挑戰,在不斷高升算力的前提下,提升效率,並採取最佳的發展策略和形式,找到最優解,將成為政府相關部門以及相關企業的重中之重。

『叄』 首個AI Day,特斯拉驚喜有餘實用不足

這個時代總會有一些英雄站在行業的前列,不管是革新還是引領,必須成為大多數人的偶像,以致他的一舉一動總能被放大,成為標榜的對象,想必馬斯克就是這樣的英雄。無意拍馬也無意迎合,但「為什麼一定是馬斯克和特斯拉」?


有人說,或許是馬斯克的個人魅力在發光,但如果單單只是對屏幕上這位一頭雜亂頭發,一身棕色夾克,說話手舞足蹈的男人產生好感,那未免太過膚淺。特斯拉的魅力還在於它總能出其不意的給予行業一些活力。


所以馬斯克帶著特斯拉首個AI Day(人工智慧日),再一次站在了聚光燈下。



將自動駕駛進行到底

北京時間8月20日,特斯拉首個AI Day有多少人在線看直播,沒有準確的數據。但從網端流出的諸多稿件來看,堪比蘋果每年在9月份召開的秋季新品發布會。


在長達3小時的發布會上,大家一直期待的馬斯克只是充當了暖場嘉賓,拋磚引玉的讓工程師做主角。本次AI Day可以總結為三件事情:一為老生常談的自動駕駛;二為特斯拉D1晶元;三為人形機器人。



無疑,AI Day日的重點還是自動駕駛。


最近因為蔚來車禍事件,「自動駕駛」的行業排位又再一次靠前,讓原本因為「自動駕駛」產生過眾多起駕駛事故的特斯拉再一次站上風口浪尖。


8月17日,據外媒報道,美國國家公路交通安全管理局(NHTSA)對特斯拉的自動輔助駕駛系統Autopilot展開正式調查,調查車型涵蓋了特斯拉全部在售車型。


根據NHTSA提供的資料中顯示,從2018年1月-2021年7月期間,由於特斯拉Autopilot系統問題,已導致11起事故,致使17人受傷、1人死亡,且都為開啟了Autopilot系統或使用了交通感知巡航控制(Traffic Aware Cruise Control)功能。總之令特斯拉應以為傲的「自動駕駛」一定背鍋。


在AI Day日上,針對Autopilot系統特斯拉又給出了許多2.0的建議。意圖很明顯,「堅定不移的完善Autopilot系統是其使命」,而工程師們也依舊強調了「它們不會使用激光雷達」的訊息。



針對Autopilot系統,特斯拉加強了技術上的諸多演算法細節,從神經網路的構建、單車道任務到多任務處理以及多攝像頭圖像數據的融合、演算法模型的模擬、數據處理模型。這些高深莫測又晦澀難懂的專業用詞簡直就是天然的「催眠曲」,盡管線上直播視頻中的工程師說話時神采奕奕,但不是鐵粉的觀眾還是有要「換台」的沖動。


對於此次講述的Autopilot系統,特斯拉所刻意強調的「它們不會使用激光雷達」,這一點BC還是頗有感觸。


在早前《致蔚來、特斯拉們:我們願意給予車企們試錯的權利,但絕非用生命》一文中,BC簡單就毫米波雷達和激光雷達的區別做過解析。


簡單來說,「毫米波雷達在解析度上一直存在硬傷,在目前絕大多數車企使用的L2輔助駕駛功能中,毫米波雷達至今都不能有效地識別前方靜止車輛,但激光雷達就好很多。」這一點上,無論是特斯拉、蔚來還是小鵬、理想,面對毫米波雷達的本質屬性,工程師們也都只有期盼著大家可以正確使用車機,但過分依賴所謂「自動駕駛」的用戶們往往也敗在這個誘惑上面。


但特斯拉還是堅持。


馬斯克是這樣解釋的,「根據現掌握『第一原理』——既然人類開車憑借眼觀六路耳聽八方就能完成,那麼對於自動駕駛系統來說,一定也可以按照同樣的方式去做到。而且一旦做到了,毫無疑問成本會比激光雷達更低。」有趣的是,馬斯克使用毫米波雷達竟然第一因素是成本,這可是徹頭徹尾的商人思維。



據該方案負責人Andrej說:「我們希望能夠打造一個類似動物視覺皮層的神經網路連接,模擬大腦信息輸入和輸出的過程。就像光線進入到視網膜當中,我們希望通過攝像頭來模擬這個過程 。」


不過由於「自動駕駛」經常失靈,特斯拉也不得不承認其「輔助」二字,雖然在馬斯克心目中實現自動駕駛是終極目標,但顯然,這個時間節點還未來到。截至目前,對特斯拉涉及Autopilot的事故還在調查,而馬斯克選擇沉默。



機器人時代,不是玩票

除了自動駕駛,特斯拉還分享了在自主研發的半導體方面的進展。顯然在車、火箭、卡車之後,馬斯克的野心勃勃令他還想繼續深挖和 汽車 行業有關可能性的一切,比如晶元。


特斯拉自研晶元正式命名D1。官方話術如下,採用7nm的工藝,在同一個晶圓上不做任何切割直接光刻,BF16精度算力362 TFLOPs。」


至此Autopilot硬體高級主管甘納什·溫卡塔拉馬南還表示,「特斯拉D1晶元每秒可處理362萬億次浮點運算,具有「GPU級」的計算能力,帶寬是用於網路的晶元的兩倍。」



這里的核心要點有二,採用7nm的工藝以及超級算力。聽不懂沒關系,必須這種復雜的半導體工藝技術就是鳳毛麟角。


「1500個D1晶元共53萬余訓練節點,組成了Dojo超級計算機的訓練模塊。每個D1晶元之間無縫連接在,配合特斯拉自創的高帶寬、低延遲的連接器,算力高達9PFLOPs(9千萬億次)。」


晶元技術工程師是這樣告訴BC的,「牛,組成的Dojo超級計算機將是世界上首屈一指的人工智慧訓練計算機。」


有了這句陳述句,即便不懂算力、浮點運算是什麼,多少也會對特斯拉產生某種敬佩感,再加上馬斯克慣用的營銷手段,出圈很簡單,或許這才是特斯拉厲害的地方,了解市場和用戶的興趣點,「勾引」他們的目光。


不過最「勾引」目光的應屬在發布會即將結束時,馬斯克再次亮相介紹的「特斯拉機器人」(Tesla Bot)。


隔著屏幕都能感受到的熱烈與歡呼,特斯拉用一個身高約1.78米,體重約57公斤,全身線條感強烈的機器人來踐行「 科技 之美」。



馬斯克表示,該原型機器人將於2022年上市,會消除「危險、重復和無聊的任務」,比如說彎腰撿東西或去商店買東西。「實質上,體力勞動的未來將是一種選擇。」不過聽上去的確無聊,人類在現階段還不需要機器人替代自己做這種簡單地工作。


這個Tesla Bot到底是「智商稅」還是馬斯克某個大布局之下的產物?諸多問號,向馬斯克涌來。


不過這個外感設計頗為後現代藝術的機器人還是花了不少思考,比如該機器人可以感知力量反饋的雙軸腳部結構,它配備多個Autopilot級別的攝像頭、FSD晶元,擁有眾多的神經網路演算法、Dojo晶元數據訓練以及各種數據模擬模型能力,所以特斯拉車型或許還沒用好的算力,可以先在機器人身上試水一番。畢竟馬斯克說,「我們對它的設定是在機械和物理層面上,你可以逃離它,而且很可能制服它。」


創造且能制服,這和科幻電影中的機器人朋友如出一轍。不過介於馬斯克經常喜歡「跑火車」的性格,將要在2022年上市的Tesla Bot,我們還是不要過於期待它的量產時間。



如果說特斯拉車型已經是新能源 汽車 行業當下的風向標,那麼Tesla Bot可以看作是特斯拉想要完成 科技 使命的一個新征程,畢竟這家不想把自己框在「 汽車 」范疇內的 科技 公司,總是具備製造驚喜的能力。


誠如分析師吉恩·蒙斯特所說,「對投資者來說,特斯拉機器人是他們可以夢想的新事物,它特別新穎,特別具有創造力,所以可以講述更多,而相對的晶元實在過於枯燥,乏味,即便它更有價值。」

『肆』 五種大數據處理架構

五種大數據處理架構
大數據是收集、整理、處理大容量數據集,並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理數據所需的計算能力或存儲容量早已超過一台計算機的上限,但這種計算類型的普遍性、規模,以及價值在最近幾年才經歷了大規模擴展。
本文將介紹大數據系統一個最基本的組件:處理框架。處理框架負責對系統中的數據進行計算,例如處理從非易失存儲中讀取的數據,或處理剛剛攝入到系統中的數據。數據的計算則是指從大量單一數據點中提取信息和見解的過程。
下文將介紹這些框架:
· 僅批處理框架:
Apache Hadoop
· 僅流處理框架:
Apache Storm
Apache Samza
· 混合框架:
Apache Spark
Apache Flink
大數據處理框架是什麼?
處理框架和處理引擎負責對數據系統中的數據進行計算。雖然「引擎」和「框架」之間的區別沒有什麼權威的定義,但大部分時候可以將前者定義為實際負責處理數據操作的組件,後者則可定義為承擔類似作用的一系列組件。
例如Apache Hadoop可以看作一種以MapRece作為默認處理引擎的處理框架。引擎和框架通常可以相互替換或同時使用。例如另一個框架Apache Spark可以納入Hadoop並取代MapRece。組件之間的這種互操作性是大數據系統靈活性如此之高的原因之一。
雖然負責處理生命周期內這一階段數據的系統通常都很復雜,但從廣義層面來看它們的目標是非常一致的:通過對數據執行操作提高理解能力,揭示出數據蘊含的模式,並針對復雜互動獲得見解。
為了簡化這些組件的討論,我們會通過不同處理框架的設計意圖,按照所處理的數據狀態對其進行分類。一些系統可以用批處理方式處理數據,一些系統可以用流方式處理連續不斷流入系統的數據。此外還有一些系統可以同時處理這兩類數據。
在深入介紹不同實現的指標和結論之前,首先需要對不同處理類型的概念進行一個簡單的介紹。
批處理系統
批處理在大數據世界有著悠久的歷史。批處理主要操作大容量靜態數據集,並在計算過程完成後返回結果。
批處理模式中使用的數據集通常符合下列特徵…
· 有界:批處理數據集代表數據的有限集合
· 持久:數據通常始終存儲在某種類型的持久存儲位置中
· 大量:批處理操作通常是處理極為海量數據集的唯一方法
批處理非常適合需要訪問全套記錄才能完成的計算工作。例如在計算總數和平均數時,必須將數據集作為一個整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計算進行過程中數據維持自己的狀態。
需要處理大量數據的任務通常最適合用批處理操作進行處理。無論直接從持久存儲設備處理數據集,或首先將數據集載入內存,批處理系統在設計過程中就充分考慮了數據的量,可提供充足的處理資源。由於批處理在應對大量持久數據方面的表現極為出色,因此經常被用於對歷史數據進行分析。
大量數據的處理需要付出大量時間,因此批處理不適合對處理時間要求較高的場合。
Apache Hadoop
Apache Hadoop是一種專用於批處理的處理框架。Hadoop是首個在開源社區獲得極大關注的大數據框架。基於谷歌有關海量數據處理所發表的多篇論文與經驗的Hadoop重新實現了相關演算法和組件堆棧,讓大規模批處理技術變得更易用。
新版Hadoop包含多個組件,即多個層,通過配合使用可處理批數據:
· HDFS:HDFS是一種分布式文件系統層,可對集群節點間的存儲和復制進行協調。HDFS確保了無法避免的節點故障發生後數據依然可用,可將其用作數據來源,可用於存儲中間態的處理結果,並可存儲計算的最終結果。
· YARN:YARN是Yet Another Resource Negotiator(另一個資源管理器)的縮寫,可充當Hadoop堆棧的集群協調組件。該組件負責協調並管理底層資源和調度作業的運行。通過充當集群資源的介面,YARN使得用戶能在Hadoop集群中使用比以往的迭代方式運行更多類型的工作負載。
· MapRece:MapRece是Hadoop的原生批處理引擎。
批處理模式
Hadoop的處理功能來自MapRece引擎。MapRece的處理技術符合使用鍵值對的map、shuffle、rece演算法要求。基本處理過程包括:
· 從HDFS文件系統讀取數據集
· 將數據集拆分成小塊並分配給所有可用節點
· 針對每個節點上的數據子集進行計算(計算的中間態結果會重新寫入HDFS)
· 重新分配中間態結果並按照鍵進行分組
· 通過對每個節點計算的結果進行匯總和組合對每個鍵的值進行「Recing」
· 將計算而來的最終結果重新寫入 HDFS
優勢和局限
由於這種方法嚴重依賴持久存儲,每個任務需要多次執行讀取和寫入操作,因此速度相對較慢。但另一方面由於磁碟空間通常是伺服器上最豐富的資源,這意味著MapRece可以處理非常海量的數據集。同時也意味著相比其他類似技術,Hadoop的MapRece通常可以在廉價硬體上運行,因為該技術並不需要將一切都存儲在內存中。MapRece具備極高的縮放潛力,生產環境中曾經出現過包含數萬個節點的應用。
MapRece的學習曲線較為陡峭,雖然Hadoop生態系統的其他周邊技術可以大幅降低這一問題的影響,但通過Hadoop集群快速實現某些應用時依然需要注意這個問題。
圍繞Hadoop已經形成了遼闊的生態系統,Hadoop集群本身也經常被用作其他軟體的組成部件。很多其他處理框架和引擎通過與Hadoop集成也可以使用HDFS和YARN資源管理器。
總結
Apache Hadoop及其MapRece處理引擎提供了一套久經考驗的批處理模型,最適合處理對時間要求不高的非常大規模數據集。通過非常低成本的組件即可搭建完整功能的Hadoop集群,使得這一廉價且高效的處理技術可以靈活應用在很多案例中。與其他框架和引擎的兼容與集成能力使得Hadoop可以成為使用不同技術的多種工作負載處理平台的底層基礎。
流處理系統
流處理系統會對隨時進入系統的數據進行計算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無需針對整個數據集執行操作,而是對通過系統傳輸的每個數據項執行操作。
· 流處理中的數據集是「無邊界」的,這就產生了幾個重要的影響:
· 完整數據集只能代表截至目前已經進入到系統中的數據總量。
· 工作數據集也許更相關,在特定時間只能代表某個單一數據項。
處理工作是基於事件的,除非明確停止否則沒有「盡頭」。處理結果立刻可用,並會隨著新數據的抵達繼續更新。
流處理系統可以處理幾乎無限量的數據,但同一時間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)數據,不同記錄間只維持最少量的狀態。雖然大部分系統提供了用於維持某些狀態的方法,但流處理主要針對副作用更少,更加功能性的處理(Functional processing)進行優化。
功能性操作主要側重於狀態或副作用有限的離散步驟。針對同一個數據執行同一個操作會或略其他因素產生相同的結果,此類處理非常適合流處理,因為不同項的狀態通常是某些困難、限制,以及某些情況下不需要的結果的結合體。因此雖然某些類型的狀態管理通常是可行的,但這些框架通常在不具備狀態管理機制時更簡單也更高效。
此類處理非常適合某些類型的工作負載。有近實時處理需求的任務很適合使用流處理模式。分析、伺服器或應用程序錯誤日誌,以及其他基於時間的衡量指標是最適合的類型,因為對這些領域的數據變化做出響應對於業務職能來說是極為關鍵的。流處理很適合用來處理必須對變動或峰值做出響應,並且關注一段時間內變化趨勢的數據。
Apache Storm
Apache Storm是一種側重於極低延遲的流處理框架,也許是要求近實時處理的工作負載的最佳選擇。該技術可處理非常大量的數據,通過比其他解決方案更低的延遲提供結果。
流處理模式
Storm的流處理可對框架中名為Topology(拓撲)的DAG(Directed Acyclic Graph,有向無環圖)進行編排。這些拓撲描述了當數據片段進入系統後,需要對每個傳入的片段執行的不同轉換或步驟。
拓撲包含:
· Stream:普通的數據流,這是一種會持續抵達系統的無邊界數據。
· Spout:位於拓撲邊緣的數據流來源,例如可以是API或查詢等,從這里可以產生待處理的數據。
· Bolt:Bolt代表需要消耗流數據,對其應用操作,並將結果以流的形式進行輸出的處理步驟。Bolt需要與每個Spout建立連接,隨後相互連接以組成所有必要的處理。在拓撲的尾部,可以使用最終的Bolt輸出作為相互連接的其他系統的輸入。
Storm背後的想法是使用上述組件定義大量小型的離散操作,隨後將多個組件組成所需拓撲。默認情況下Storm提供了「至少一次」的處理保證,這意味著可以確保每條消息至少可以被處理一次,但某些情況下如果遇到失敗可能會處理多次。Storm無法確保可以按照特定順序處理消息。
為了實現嚴格的一次處理,即有狀態處理,可以使用一種名為Trident的抽象。嚴格來說不使用Trident的Storm通常可稱之為Core Storm。Trident會對Storm的處理能力產生極大影響,會增加延遲,為處理提供狀態,使用微批模式代替逐項處理的純粹流處理模式。
為避免這些問題,通常建議Storm用戶盡可能使用Core Storm。然而也要注意,Trident對內容嚴格的一次處理保證在某些情況下也比較有用,例如系統無法智能地處理重復消息時。如果需要在項之間維持狀態,例如想要計算一個小時內有多少用戶點擊了某個鏈接,此時Trident將是你唯一的選擇。盡管不能充分發揮框架與生俱來的優勢,但Trident提高了Storm的靈活性。
Trident拓撲包含:
· 流批(Stream batch):這是指流數據的微批,可通過分塊提供批處理語義。
· 操作(Operation):是指可以對數據執行的批處理過程。
優勢和局限
目前來說Storm可能是近實時處理領域的最佳解決方案。該技術可以用極低延遲處理數據,可用於希望獲得最低延遲的工作負載。如果處理速度直接影響用戶體驗,例如需要將處理結果直接提供給訪客打開的網站頁面,此時Storm將會是一個很好的選擇。
Storm與Trident配合使得用戶可以用微批代替純粹的流處理。雖然藉此用戶可以獲得更大靈活性打造更符合要求的工具,但同時這種做法會削弱該技術相比其他解決方案最大的優勢。話雖如此,但多一種流處理方式總是好的。
Core Storm無法保證消息的處理順序。Core Storm為消息提供了「至少一次」的處理保證,這意味著可以保證每條消息都能被處理,但也可能發生重復。Trident提供了嚴格的一次處理保證,可以在不同批之間提供順序處理,但無法在一個批內部實現順序處理。
在互操作性方面,Storm可與Hadoop的YARN資源管理器進行集成,因此可以很方便地融入現有Hadoop部署。除了支持大部分處理框架,Storm還可支持多種語言,為用戶的拓撲定義提供了更多選擇。
總結
對於延遲需求很高的純粹的流處理工作負載,Storm可能是最適合的技術。該技術可以保證每條消息都被處理,可配合多種編程語言使用。由於Storm無法進行批處理,如果需要這些能力可能還需要使用其他軟體。如果對嚴格的一次處理保證有比較高的要求,此時可考慮使用Trident。不過這種情況下其他流處理框架也許更適合。
Apache Samza
Apache Samza是一種與Apache Kafka消息系統緊密綁定的流處理框架。雖然Kafka可用於很多流處理系統,但按照設計,Samza可以更好地發揮Kafka獨特的架構優勢和保障。該技術可通過Kafka提供容錯、緩沖,以及狀態存儲。
Samza可使用YARN作為資源管理器。這意味著默認情況下需要具備Hadoop集群(至少具備HDFS和YARN),但同時也意味著Samza可以直接使用YARN豐富的內建功能。
流處理模式
Samza依賴Kafka的語義定義流的處理方式。Kafka在處理數據時涉及下列概念:
· Topic(話題):進入Kafka系統的每個數據流可稱之為一個話題。話題基本上是一種可供消耗方訂閱的,由相關信息組成的數據流。
· Partition(分區):為了將一個話題分散至多個節點,Kafka會將傳入的消息劃分為多個分區。分區的劃分將基於鍵(Key)進行,這樣可以保證包含同一個鍵的每條消息可以劃分至同一個分區。分區的順序可獲得保證。
· Broker(代理):組成Kafka集群的每個節點也叫做代理。
· Procer(生成方):任何向Kafka話題寫入數據的組件可以叫做生成方。生成方可提供將話題劃分為分區所需的鍵。
· Consumer(消耗方):任何從Kafka讀取話題的組件可叫做消耗方。消耗方需要負責維持有關自己分支的信息,這樣即可在失敗後知道哪些記錄已經被處理過了。
由於Kafka相當於永恆不變的日誌,Samza也需要處理永恆不變的數據流。這意味著任何轉換創建的新數據流都可被其他組件所使用,而不會對最初的數據流產生影響。
優勢和局限
乍看之下,Samza對Kafka類查詢系統的依賴似乎是一種限制,然而這也可以為系統提供一些獨特的保證和功能,這些內容也是其他流處理系統不具備的。
例如Kafka已經提供了可以通過低延遲方式訪問的數據存儲副本,此外還可以為每個數據分區提供非常易用且低成本的多訂閱者模型。所有輸出內容,包括中間態的結果都可寫入到Kafka,並可被下游步驟獨立使用。
這種對Kafka的緊密依賴在很多方面類似於MapRece引擎對HDFS的依賴。雖然在批處理的每個計算之間對HDFS的依賴導致了一些嚴重的性能問題,但也避免了流處理遇到的很多其他問題。
Samza與Kafka之間緊密的關系使得處理步驟本身可以非常鬆散地耦合在一起。無需事先協調,即可在輸出的任何步驟中增加任意數量的訂閱者,對於有多個團隊需要訪問類似數據的組織,這一特性非常有用。多個團隊可以全部訂閱進入系統的數據話題,或任意訂閱其他團隊對數據進行過某些處理後創建的話題。這一切並不會對資料庫等負載密集型基礎架構造成額外的壓力。
直接寫入Kafka還可避免回壓(Backpressure)問題。回壓是指當負載峰值導致數據流入速度超過組件實時處理能力的情況,這種情況可能導致處理工作停頓並可能丟失數據。按照設計,Kafka可以將數據保存很長時間,這意味著組件可以在方便的時候繼續進行處理,並可直接重啟動而無需擔心造成任何後果。
Samza可以使用以本地鍵值存儲方式實現的容錯檢查點系統存儲數據。這樣Samza即可獲得「至少一次」的交付保障,但面對由於數據可能多次交付造成的失敗,該技術無法對匯總後狀態(例如計數)提供精確恢復。
Samza提供的高級抽象使其在很多方面比Storm等系統提供的基元(Primitive)更易於配合使用。目前Samza只支持JVM語言,這意味著它在語言支持方面不如Storm靈活。
總結
對於已經具備或易於實現Hadoop和Kafka的環境,Apache Samza是流處理工作負載一個很好的選擇。Samza本身很適合有多個團隊需要使用(但相互之間並不一定緊密協調)不同處理階段的多個數據流的組織。Samza可大幅簡化很多流處理工作,可實現低延遲的性能。如果部署需求與當前系統不兼容,也許並不適合使用,但如果需要極低延遲的處理,或對嚴格的一次處理語義有較高需求,此時依然適合考慮。
混合處理系統:批處理和流處理
一些處理框架可同時處理批處理和流處理工作負載。這些框架可以用相同或相關的組件和API處理兩種類型的數據,藉此讓不同的處理需求得以簡化。
如你所見,這一特性主要是由Spark和Flink實現的,下文將介紹這兩種框架。實現這樣的功能重點在於兩種不同處理模式如何進行統一,以及要對固定和不固定數據集之間的關系進行何種假設。
雖然側重於某一種處理類型的項目會更好地滿足具體用例的要求,但混合框架意在提供一種數據處理的通用解決方案。這種框架不僅可以提供處理數據所需的方法,而且提供了自己的集成項、庫、工具,可勝任圖形分析、機器學習、互動式查詢等多種任務。
Apache Spark
Apache Spark是一種包含流處理能力的下一代批處理框架。與Hadoop的MapRece引擎基於各種相同原則開發而來的Spark主要側重於通過完善的內存計算和處理優化機制加快批處理工作負載的運行速度。
Spark可作為獨立集群部署(需要相應存儲層的配合),或可與Hadoop集成並取代MapRece引擎。
批處理模式
與MapRece不同,Spark的數據處理工作全部在內存中進行,只在一開始將數據讀入內存,以及將最終結果持久存儲時需要與存儲層交互。所有中間態的處理結果均存儲在內存中。
雖然內存中處理方式可大幅改善性能,Spark在處理與磁碟有關的任務時速度也有很大提升,因為通過提前對整個任務集進行分析可以實現更完善的整體式優化。為此Spark可創建代表所需執行的全部操作,需要操作的數據,以及操作和數據之間關系的Directed Acyclic Graph(有向無環圖),即DAG,藉此處理器可以對任務進行更智能的協調。
為了實現內存中批計算,Spark會使用一種名為Resilient Distributed Dataset(彈性分布式數據集),即RDD的模型來處理數據。這是一種代表數據集,只位於內存中,永恆不變的結構。針對RDD執行的操作可生成新的RDD。每個RDD可通過世系(Lineage)回溯至父級RDD,並最終回溯至磁碟上的數據。Spark可通過RDD在無需將每個操作的結果寫回磁碟的前提下實現容錯。
流處理模式
流處理能力是由Spark Streaming實現的。Spark本身在設計上主要面向批處理工作負載,為了彌補引擎設計和流處理工作負載特徵方面的差異,Spark實現了一種叫做微批(Micro-batch)*的概念。在具體策略方面該技術可以將數據流視作一系列非常小的「批」,藉此即可通過批處理引擎的原生語義進行處理。
Spark Streaming會以亞秒級增量對流進行緩沖,隨後這些緩沖會作為小規模的固定數據集進行批處理。這種方式的實際效果非常好,但相比真正的流處理框架在性能方面依然存在不足。
優勢和局限
使用Spark而非Hadoop MapRece的主要原因是速度。在內存計算策略和先進的DAG調度等機制的幫助下,Spark可以用更快速度處理相同的數據集。
Spark的另一個重要優勢在於多樣性。該產品可作為獨立集群部署,或與現有Hadoop集群集成。該產品可運行批處理和流處理,運行一個集群即可處理不同類型的任務。
除了引擎自身的能力外,圍繞Spark還建立了包含各種庫的生態系統,可為機器學習、互動式查詢等任務提供更好的支持。相比MapRece,Spark任務更是「眾所周知」地易於編寫,因此可大幅提高生產力。
為流處理系統採用批處理的方法,需要對進入系統的數據進行緩沖。緩沖機制使得該技術可以處理非常大量的傳入數據,提高整體吞吐率,但等待緩沖區清空也會導致延遲增高。這意味著Spark Streaming可能不適合處理對延遲有較高要求的工作負載。
由於內存通常比磁碟空間更貴,因此相比基於磁碟的系統,Spark成本更高。然而處理速度的提升意味著可以更快速完成任務,在需要按照小時數為資源付費的環境中,這一特性通常可以抵消增加的成本。
Spark內存計算這一設計的另一個後果是,如果部署在共享的集群中可能會遇到資源不足的問題。相比HadoopMapRece,Spark的資源消耗更大,可能會對需要在同一時間使用集群的其他任務產生影響。從本質來看,Spark更不適合與Hadoop堆棧的其他組件共存一處。
總結
Spark是多樣化工作負載處理任務的最佳選擇。Spark批處理能力以更高內存佔用為代價提供了無與倫比的速度優勢。對於重視吞吐率而非延遲的工作負載,則比較適合使用Spark Streaming作為流處理解決方案。
Apache Flink
Apache Flink是一種可以處理批處理任務的流處理框架。該技術可將批處理數據視作具備有限邊界的數據流,藉此將批處理任務作為流處理的子集加以處理。為所有處理任務採取流處理為先的方法會產生一系列有趣的副作用。
這種流處理為先的方法也叫做Kappa架構,與之相對的是更加被廣為人知的Lambda架構(該架構中使用批處理作為主要處理方法,使用流作為補充並提供早期未經提煉的結果)。Kappa架構中會對一切進行流處理,藉此對模型進行簡化,而這一切是在最近流處理引擎逐漸成熟後才可行的。
流處理模型
Flink的流處理模型在處理傳入數據時會將每一項視作真正的數據流。Flink提供的DataStream API可用於處理無盡的數據流。Flink可配合使用的基本組件包括:
· Stream(流)是指在系統中流轉的,永恆不變的無邊界數據集
· Operator(操作方)是指針對數據流執行操作以產生其他數據流的功能
· Source(源)是指數據流進入系統的入口點
· Sink(槽)是指數據流離開Flink系統後進入到的位置,槽可以是資料庫或到其他系統的連接器
為了在計算過程中遇到問題後能夠恢復,流處理任務會在預定時間點創建快照。為了實現狀態存儲,Flink可配合多種狀態後端系統使用,具體取決於所需實現的復雜度和持久性級別。
此外Flink的流處理能力還可以理解「事件時間」這一概念,這是指事件實際發生的時間,此外該功能還可以處理會話。這意味著可以通過某種有趣的方式確保執行順序和分組。
批處理模型
Flink的批處理模型在很大程度上僅僅是對流處理模型的擴展。此時模型不再從持續流中讀取數據,而是從持久存儲中以流的形式讀取有邊界的數據集。Flink會對這些處理模型使用完全相同的運行時。
Flink可以對批處理工作負載實現一定的優化。例如由於批處理操作可通過持久存儲加以支持,Flink可以不對批處理工作負載創建快照。數據依然可以恢復,但常規處理操作可以執行得更快。
另一個優化是對批處理任務進行分解,這樣即可在需要的時候調用不同階段和組件。藉此Flink可以與集群的其他用戶更好地共存。對任務提前進行分析使得Flink可以查看需要執行的所有操作、數據集的大小,以及下游需要執行的操作步驟,藉此實現進一步的優化。
優勢和局限
Flink目前是處理框架領域一個獨特的技術。雖然Spark也可以執行批處理和流處理,但Spark的流處理採取的微批架構使其無法適用於很多用例。Flink流處理為先的方法可提供低延遲,高吞吐率,近乎逐項處理的能力。
Flink的很多組件是自行管理的。雖然這種做法較為罕見,但出於性能方面的原因,該技術可自行管理內存,無需依賴原生的Java垃圾回收機制。與Spark不同,待處理數據的特徵發生變化後Flink無需手工優化和調整,並且該技術也可以自行處理數據分區和自動緩存等操作。
Flink會通過多種方式對工作進行分許進而優化任務。這種分析在部分程度上類似於SQL查詢規劃器對關系型資料庫所做的優化,可針對特定任務確定最高效的實現方法。該技術還支持多階段並行執行,同時可將受阻任務的數據集合在一起。對於迭代式任務,出於性能方面的考慮,Flink會嘗試在存儲數據的節點上執行相應的計算任務。此外還可進行「增量迭代」,或僅對數據中有改動的部分進行迭代。
在用戶工具方面,Flink提供了基於Web的調度視圖,藉此可輕松管理任務並查看系統狀態。用戶也可以查看已提交任務的優化方案,藉此了解任務最終是如何在集群中實現的。對於分析類任務,Flink提供了類似SQL的查詢,圖形化處理,以及機器學習庫,此外還支持內存計算。
Flink能很好地與其他組件配合使用。如果配合Hadoop 堆棧使用,該技術可以很好地融入整個環境,在任何時候都只佔用必要的資源。該技術可輕松地與YARN、HDFS和Kafka 集成。在兼容包的幫助下,Flink還可以運行為其他處理框架,例如Hadoop和Storm編寫的任務。
目前Flink最大的局限之一在於這依然是一個非常「年幼」的項目。現實環境中該項目的大規模部署尚不如其他處理框架那麼常見,對於Flink在縮放能力方面的局限目前也沒有較為深入的研究。隨著快速開發周期的推進和兼容包等功能的完善,當越來越多的組織開始嘗試時,可能會出現越來越多的Flink部署
總結
Flink提供了低延遲流處理,同時可支持傳統的批處理任務。Flink也許最適合有極高流處理需求,並有少量批處理任務的組織。該技術可兼容原生Storm和Hadoop程序,可在YARN管理的集群上運行,因此可以很方便地進行評估。快速進展的開發工作使其值得被大家關注。
結論
大數據系統可使用多種處理技術。
對於僅需要批處理的工作負載,如果對時間不敏感,比其他解決方案實現成本更低的Hadoop將會是一個好選擇。
對於僅需要流處理的工作負載,Storm可支持更廣泛的語言並實現極低延遲的處理,但默認配置可能產生重復結果並且無法保證順序。Samza與YARN和Kafka緊密集成可提供更大靈活性,更易用的多團隊使用,以及更簡單的復制和狀態管理。
對於混合型工作負載,Spark可提供高速批處理和微批處理模式的流處理。該技術的支持更完善,具備各種集成庫和工具,可實現靈活的集成。Flink提供了真正的流處理並具備批處理能力,通過深度優化可運行針對其他平台編寫的任務,提供低延遲的處理,但實際應用方面還為時過早。
最適合的解決方案主要取決於待處理數據的狀態,對處理所需時間的需求,以及希望得到的結果。具體是使用全功能解決方案或主要側重於某種項目的解決方案,這個問題需要慎重權衡。隨著逐漸成熟並被廣泛接受,在評估任何新出現的創新型解決方案時都需要考慮類似的問題。

『伍』 算力是什麼意思

比特幣網路處理能力的度量單位,即計算機計算哈希函數輸出的速度。

算力(也稱哈希率)是比特幣網路處理能力的度量單位。即為計算機(CPU)計算哈希函數輸出的速度。比特幣網路必須為了安全目的而進行密集的數學和加密相關操作。 例如,當網路達到10Th/s的哈希率時,意味著它可以每秒進行10萬億次計算。

在通過「挖礦」得到比特幣的過程中,我們需要找到其相應的解m,而對於任何一個六十四位的哈希值,要找到其解m,都沒有固定演算法,只能靠計算機隨機的hash碰撞,而一個挖礦機每秒鍾能做多少次hash碰撞,就是其「算力」的代表,單位寫成hash/s,這就是所謂工作量證明機制POW(Proof Of Work)。

基本概念

日前,比特幣全網算力已經全面進入P算力時代(1P=1024T,1T=1024G,1G=1024M,1M=1024k),在不斷飆升的算力環境中,P時代的到來意味著比特幣進入了一個新的軍備競賽階段。

算力是衡量在一定的網路消耗下生成新塊的單位的總計算能力。每個硬幣的單個區塊鏈隨生成新的交易塊所需的時間而變化。



『陸』 薩摩耶雲:模型數據升維,AI決策「破圈」

本刊訊 人類對人工智慧的想像和 探索 ,從未止步。

隨著數據、演算法、算力能力提升,人工智慧的應用場景深入到生活的方方面面。我們在搜索引擎上輸入關鍵詞後,網頁會自動匹配相關搜索內容;短視頻App能根據我們的瀏覽習慣,推送相似的博主和場景;對著智能手機等移動終端喊話,便能調用相關功能,實現人機交互。

以人工智慧為代表的數字化產業快速向前推進,產業數字化轉型也成為不可逆的趨勢,各行各業都在尋求與自身商業模式相匹配的AI大腦。AI決策能力,正是AI大腦的內核,它決定了AI解決方案的效率和可執行性。

AI決策由模型性能決定,而模型性能的好壞,離不開人工智慧三駕馬車的拉動——數據、演算法、算力。其中,數據在模型搭建過程中起基礎性作用,一個模型的優劣,百分之八十取決於數據和樣本的維度,正如巧婦難為無米之炊。

因此,數據提升對於模型優化有著基礎性、全局性的作用,而數據與模型也是AI系統的重要組成部分。目前,AI模型開發及應用難點,主要在於數據應用和演算法創新上,其中,後者更多體現的是建模方法的適當性。

數據應用維度不足。從AI決策的模型發展現狀來看,當前很多模型僅僅是基於二維的數據組織形式來構建,沒有考慮到數據在完整周期中的時間節點變化。最終容易導致模型的辨識度、准確度、穩定性失衡,AI決策效果大打折扣。

例如,在視頻推薦和電商推薦場景中,如果模型僅是在用戶賬戶、行為屬性、社交記錄、交易結果等標准數據集上構建和優化,沒有納入用戶在決策過程中的重要時間節點下的行為表現,可能就會使模型效果過於擬合,不能夠精準地預判用戶喜好以及交易風險控制。

一般來講,二維數據的維度主要表現為樣本維度和特徵維度。樣本維度常常為用戶ID信息或者是訂單編號,特徵維度則為用戶人口屬性、行為屬性、外部資信等信息。二維數據模式下,用戶在每個時間點只對應一條變數。

回到實際業務場景,用戶在不同的時間節點會呈現不同的行為表現,盡管這些表現強度存在差異化,但最終會反饋到行為特徵上。如果把不同時間節點的用戶特徵行為差異,盡可能納入建模過程,那麼原有的一對一二維數據就延展至一對多的時間序列形式,也就是說把數據應用升維到樣本維度、時間維度、特徵維度的三維數據組織形式。

三維數據不僅能降低數據集特徵不足的影響,而且能最大程度挖掘數據價值,增加特徵數量,提升模型准確性。尤其是在業務數據獲取時,外部資信等數據往往會遇到接入不確定因素,而內部數據數量和類型有限,並且利用程度趨於飽和。

但對於模型開發而言,更高的精準度和辨識度,要求引入更多維度的數據,挖掘數據規律,生成更多衍生變數。一旦無法從數量維度獲取更多變數,那麼只能從質量角度下功夫,向深度挖掘變數內部信息,其中一對多的時間序列角度的升維就是深挖數據信息的方法之一。

其實,數據升維可用於AI模型優化的場景非常多,例如在股票、基金的智能投顧業務中,AI模型的數據應用加入時間維度,與樣本維度和個股、個基一起構成三維樣本,便能把節點變數考慮在內,更加精準預判未來走勢。

要想通過高維時序數據實現模型優化,僅停留在數據層面遠遠不夠,還需對演算法提升。決定模型好壞的剩下20%,正是建模方法的選擇,而與高維時序數據處理相匹配的演算法通常為基於神經網路演算法的深度學習。

以薩摩耶雲為例,薩摩耶雲基於深度學習框架, 探索 數據升維用於模型性能的提升,研發出適用於多行業和場景的AI解決方案,滿足企業高效智能決策的需求。同時,這些端到端的雲原生 科技 解決方案,以SaaS+aPaaS形式提供交付,通過雙方系統對接實現信息實時交互,能為合作夥伴輸出基於雲的智能決策服務。

在薩摩耶雲首席科學家王明明看來,更高維度的時序數據建模意味著對現有的業務數據的重新理解、更多的數據信息、更復雜的數據組織方式、更高的機器性能要求、存儲要求以及模型上線要求。以高維時序數據為基礎,施以神經網路來訓練,加工多維變數特徵,最終建立並優化模型的AI決策能力。

具體來看,作為機器學習的重要分支,神經網路是從數據中學習表示的一種新的方法,強調從連續地層中進行學習。在神經網路演算法驅動下,模型可在同一時間共同學習所有表示層,可能包含數十個甚至上百個連續層,而其他機器學習方法往往僅僅學習一兩層的數據表示。

神經網路在高維時序數據學習中,一方面通過漸進的、逐層式的方式形成越來越復雜的表示;另一方面,對漸進的表示共同進行學習,每一層的變化都需要同時考慮上下兩層的需要。這意味著,循環神經網路引入狀態變數時,能保存每個時刻的信息,並且與當前的輸入共同決定此刻的輸出。

從薩摩耶雲的AI決策實踐來看,薩摩耶雲在模型搭建過程中,不僅考慮了以往的樣本維度和特徵維度,還把各時間節點的用戶特徵差異納入考量,通過三維數據加工完善數據特徵。在此基礎上,薩摩耶雲利用神經網路、深度學習,建立和訓練模型,實現比常規模型更為高效的模型效果。

這對於提升模型的預判能力和精準度至關重要。就像閱讀一段新聞,如果僅僅從每一個字、每一個片語來理解,很容易斷章取義,無法真正明白新聞所指。但把新聞構成中的字詞句連貫起來,並置於各個背景節點中,就可以理解新聞的准確意思。

當薩摩耶雲把基於神經網路等技術的AI模型,應用於實際業務場景之中,能進一步放大數據價值,幫助企業增強預測分析能力,提升精準營銷、銷售管理、供應鏈協作、結果預測、風險控制的效率,進而實現從經驗決策到智能決策,達到降本增效的效果。

實驗數據也表明,用神經網路的時間序列來做變數衍生,可以產生較為顯著的變數增益效果,衍生變數可以直接用於其他傳統方式的建模環節,同時也可擴充內部的衍生變數空間。當原始特徵的區分能力得到提升,模型的區分效果也得到增強,最終強化AI模型性能。

作為領先的獨立雲服務 科技 解決方案供應商,薩摩耶雲立足場景需求,深耕AI決策智能賽道,不斷升級大數據、演算法、模型策略和產品設計,為數字經濟和企業數字化轉型提供技術支撐。在此過程中,薩摩耶雲不僅強化了自身核心自主競爭力,而且著眼數字中國全景,源源不斷釋放 科技 賦能的價值。(山河)

『柒』 從計算機硬體設計的角度分析如何提供更為豐富的算力

自上世紀90年代互聯網技術誕生以來,移動互聯網、雲計算、大數據、人工智慧等新一代信息技術的不斷發展和逐步成熟,並日益深入的滲透到經濟社會的各個領域,2020年全球范圍內爆發的新冠疫情又進一步加速了這一趨勢,數字經濟已經成為世界經濟發展的新階段,即世界經濟發展已經進入數字經濟時代。
黨中央、國務院和各級政府高度重視數字經濟的發展。從2015年《中國製造2025》、《促進大數據發展行動綱要》等政策出台以來,中央和各級地方陸續以推出系列數字經濟發展的措施,並支持雄安新區、浙江、福建等六個地區建設國家數字經濟創新發展試驗區,支持北京、上海、深圳、西安等地建設國家新一代人工智慧創新發展試驗區。2020年國家進一步提出加強新型基礎設施建設,並明確將數據作為一種新型生產要素寫入政策文件,這些將為數字經濟的發展奠定更加堅實的基礎。
農業經濟時代,土地、水源和工具是關鍵資源。工業經濟時代,能源、原材料、機器設備和生產工藝等是關鍵資源。那數字經濟時代的關鍵資源是什麼呢?數字經濟時代的關鍵資源是數據、算力和演算法。數據是數字經濟時代的原材料,各種經濟活動中都在源源不斷的產生的數據,越來越多的組織也將數據當作一種資產,在政策層面數據已經成為一種新型生產要素。算力相當於數字經濟時代的機器設備和生產力,面向各種場景的數據產品或應用都離不開算力的加工和計算,而且對算力的需求和要求也越來越高。演算法是數字經濟時代的生產工藝,面向圖像、語音、自然語言處理等不同的應用場景和領域的演算法也層出不窮,演算法的提升和改進可以提高算力的效率和更多的挖掘數據價值。
本文重點分析算力方面內容,介紹算力市場總體情況,當前算力發展的特點和趨勢,以及重點算力供應方式等。
一、算力需求快速增長,算力投資具有多重經濟價值
算力即計算能力,核心是CPU、GPU、NPU、MCU等各類晶元,具體由計算機、伺服器、高性能計算集群和各類智能終端等承載。數字經濟時代,數據的爆炸式增長,演算法的復雜程度不斷提高,對算力需求越來越高。算力是數字經濟發展的基礎設施和核心生產力,對經濟發展具有重要作用,根據IDC與浪潮聯合發布的《2020全球計算力指數評估報告》,計算力指數平均每提高1點,數字經濟和GDP將分別增長3.3‰和1.8‰。
隨著數字經濟的不斷發展,人工智慧、物聯網、區塊鏈、AR/VR 等數字經濟的關鍵領域對算力的需求也將呈爆炸式增長。根據華為發布的《泛在算力:智能社會的基石》報告,預計到2030年人工智慧、物聯網、區塊鏈、AR/VR 等總共對算力的需求將達到3.39萬EFLOPS,並且將共同對算力形成隨時、隨地、隨需、隨形 (Anytime、Anywhere、AnyCapacity、Any Object) 的能力要求,其中人工智慧算力將超過1.6萬EFLOPS,接近整體算力需求的一半。OpenAI開發的GPT-3模型涉及1750億個參數,對算力的需求達到3640PFLOPS,目前國內也有研究團隊在跟進中文GPT-3模型的研究。
算力投資具有多重經濟價值,不僅直接帶動伺服器行業及上游晶元、電子等行業的發展,而且算力價值的發揮將帶動各行業轉型升級和效率提升等,帶來更大的間接經濟價值。根據《泛在算力:智能社會的基石》報告,每投入1美元算力即可以帶動晶元、伺服器、數據中心、智能終端、高速網路等領域約4.7美元的直接產業產值增長;在傳統工廠改造為智能化工廠的場景下,每1美元的算力投入,可以帶動10美元的相關產值提升。
二、算力發展的特點及趨勢
隨著數據規模的增加和演算法復雜度的提升,以及應用多樣性的不斷豐富,對算力提出的要求也越來越高,當前算力發展呈現出三方面的特點,一是多種架構百花齊放的狀態,二是中心化的算力與邊緣終端算力快速發展,三是專用算力日漸成勢。
近年來多種算力架構並存並快速發展。曾經x86架構的算力占絕對優勢,英特爾和AMD基本壟斷了X86算力架構市場,海光信息通過跟AMD合作獲得x86架構的授權;如今基於ARM架構的算力份額不斷擴大,特別是在移動端ARM架構算力成為主流,華為海思等主要產品是基於ARM架構,另外天津飛騰的產品也是基於ARM架構。隨著人工智慧等算力需求的不斷增加,GPU算力的需求不斷增加,英偉達在GPU算力市場佔有絕對優勢,AMD也分了一杯羹,疊加比特幣挖礦算力需求,導致市場上GPU卡供不應求。近幾年國內也出現幾個GPU方面的創業團隊,如寒武紀、登臨科技、燧原科技等。此外,Risc-V、存算一體化架構、類腦架構等算力也不斷涌現,不過這些算力剛剛起步,在應用生態等方面還需要一定較長的培育過程。
中心化算力和邊緣終端算力快速發展。隨著7nm製程日漸成熟,基於7nm製程的CPU、GPU等算力性能得到極大提升,目前7nm製程算力主要是中心化算力,移動端智能手機的處理器算力部分也已經採用7nm製程。台積電的7nm製程已經實現規模化,並開始攻關3nm工藝製程;中芯國際7nm工藝製程仍在技術攻關當中。隨著5G及物聯網應用的不斷增加,邊緣終端算力的需求日益增加,特別是自動駕駛、智慧安防、智慧城市等領域算力需求。地平線自動駕駛晶元已經量產,英偉達jetson產品在嵌入式終端產品應用廣泛,其他針對特定領域專用邊緣終端晶元創業公司層出不窮。
針對圖像、語音等特定領域的專用算力日漸成勢。一方面是晶元工藝製程越來越逼近摩爾定律的極限,另一方面是物聯網智能終端對功耗的要求等,針對特定領域的專用晶元層出不窮,並且越來越多的巨頭參與其中。谷歌的TPU專為機器學習定製的算力,阿里平頭哥的含光NPU專為神經網路定製的算力,賽靈思的FPGA算力,網路研發針對語音領域的鴻鵠晶元以及雲知聲、思必馳、探境科技等也推出智能語音相關的晶元,北京君正、雲天勵飛、依圖科技和芯原微電子等推出針對視覺和視頻處理相關的專用晶元。
三、算力供應以公有雲和自建算力為主,多種方式相補充
當前的算力供給主要包括公有雲、超算中心、自建算力、地方算力中心等方式。其中,公有雲和自建算力中心是算力的主要來源方式,超算中心及地方算力中心等多種方式相互補充。
規模化的算力供應通常通過數據中來承載,新建數據中心的不斷增加,將帶動未來算力資源的供應不斷擴大。據中國電子信息產業發展研究院統計數據,2019年中國數據中心數量大約為7.4萬個,大約能佔全球數據中心總量的23%,其中大型數據中心佔比12.7%;在用數據中心機架規模達到265.8萬架,同比增長28.7%;在建數據中心機架規模約185萬架,同比增加約43萬架。2020年國家大力支持「新基建」建設以來,數據中心作為「新基建」的重要內容,京津冀、長三角和珠三角等算力需求地區,以及中西部能源資源集中的區域,如內蒙、山西等,均在推進新的大中型數據中心的建設。
公有雲以其穩定和易用等特點,成為許多企業特別是中小企業的算力首選方式。據不完全統計,阿里雲伺服器總數接近200萬台,騰訊雲伺服器總數超過110萬台,華為雲、網路雲、京東雲、AWS等雲廠商伺服器總數未找到確切數據,保守估計各類雲廠商伺服器總數之和也超過500萬台。而且在國家宣布大力支持「新基建」建設之後,騰訊宣布未來五年將投資5000億元用於雲計算、數據中心等新基建項目的進一步布局,阿里雲宣布未來三年阿里將投2000億元用於面向未來的數據中心建設及重大核心技術研發攻堅,網路宣布預計到2030年網路智能雲伺服器台數將超過500萬台。各大雲廠商仍在繼續加大算力投入,公有雲算力供應將會更加充裕。
自建算力以其安全性和自主性等特點,成為政府、大企業及其他關注安全的組織的算力首選方式。政府、銀行及高校和央企等,通常通過自建或租賃數據中心的方式自建算力,滿足自身各項業務的算力需求。許多互聯網公司在剛開始時選擇使用公有雲服務,但規模發展到一定程度時通常都會開始自建或租賃數據中心的方式自建算力。其他有部分各種類型的企業,出於安全、商業機密和隱私等方面的考慮,不意願把數據和業務等放到阿里雲等公有雲上,往往選擇託管伺服器的方式自建算力,規模更小企業直接就在本地使用。2020年6月快手宣布投資100億元自建數據中心,計劃部署30萬台伺服器,位元組跳動等大型互聯網公司都在不斷加大數據中心的建設。
超算中心和地方算力中心作為算力供應有效的補充方式,適合於大規模計算需求的應用領域。截至2020年,科技部批准建立的國家超級計算中心共有八所,分別是國家超級計算天津中心、廣州中心、深圳中心、長沙中心、濟南中心、無錫中心、鄭州中心和崑山中心。超算中心主要的算力資源以CPU為主,新建的超算中心及更新升級過程中超算中心逐步增加了異構GPU算力資源。超算中心較好的滿足和彌補了高校科研中算力資源的需求,特別是在工業模擬、生物信息、新材料、氣象、海洋等科學計算領域。國內主要省市地區基本都投資建設了當地算力中心,重點服務本地科研和產業發展的需求,如太原、蘇州、福建等地,目前通常地方算力中心的規模並不大,計算節點數在200-500之間居多,主要服務於當地氣象、工業模擬和生物信息等領域計算需求。此外,2020年以來,武漢、南京、珠海、許昌等地區正在建設人工智慧計算中心,將在一定程度上彌補當前規模化AI算力不足的情況。
結語
算力作為數字經濟的基礎設施,也是數字經濟時代的生產力和引擎,越來越成為數字經濟時代國家競爭力的體現。根據IDC與浪潮聯合發布的《2020全球計算力指數評估報告》,中國和美國的算力建設在全球處於領先地位,美國的算力無論在規模、效率、應用水平等方面都領先於中國。此外,從算力晶元供應角度看,美國的英特爾、AMD、英偉達等企業幾乎佔了全球的絕大部分的市場份額。可見,中國在算力建設和發展仍然需要加大投入和加強研發等,發揮優勢的同時彌補不足,從而為數字經濟長期發展奠定更加堅實的基礎。

『捌』 大數據建模過程中的數據處理

數據是建模的基礎,也是研究事物發展規律的材料。數據本身的可信度和處理的方式將直接決定模型的天花板在何處。一個太過雜亂的數據,無論用多麼精煉的模型都無法解決數據的本質問題,也就造成了模型的效果不理想的效果。這也是我們目前所要攻克的壁壘。但是,目前我們市場對的數據或者科研的數據並不是完全雜亂無章的,基本都是有規律可循的,因此,用模型演算法去進行科學的分析,可以主觀情緒對決策的影響。所以數據是非常重要的一部分。那麼,接下來我們就詳細說一下數據的處理與分析。

當看到數據的時候,首要做的並不是進行清洗或者特徵工程,而是要觀察數據所呈現的基本狀態,以及進行數據與任務的匹配,這就需要我們之前所提到的業務常識與數據敏感度的能力了,只有通過完整的數據分析,才能夠更為精準的做符合需求的特徵工程工作。數據的基本特徵分析主要從以下幾個方面進行:

1. 確定類型 :數據集的類型包括文本,音頻,視頻,圖像,數值等多種形式交織而成,但是傳入模型中的都是以數值形式呈現的,所以確定數據的類型,才可以確定用什麼方法進行量化處理。

2. 驗證可靠度 :由於數據的收集的方式不盡相同,數據來源的途徑多種多樣。所以數據的可信度判斷也顯得尤為重要。而數據可靠性校驗的方法非常多。例如:根據收集途徑判斷,如果調查問卷也可根據問卷設計的可靠度進行判斷,當然轉化為數值後也可輔助一些模型進行精細校驗等。採用何種方式,取決於獲取數據的方式,數據類型以及項目的需求。

3. 樣本定義 :需要確定樣本對應的每一個特徵屬性的內容是什麼。例如:樣本的容量,樣本的具體內容,樣本所包含的基本信息等。

4. 任務匹配: 在任務分析中我們把項目拆分成了小的子問題,這些問題有分類,回歸,關聯關系等。也就是每個問題的所達成的目標是不一樣的,那麼我們要從數據集中篩選出符合子問題的數據,也就是選好解決問題的原料,很多情況下是靠你的數據敏感度和業務常識進行判斷的。

5. 數據集的劃分: 由於模型搭建完成之後有一個訓練與驗證評估的過程,而目前最為簡單的一種驗證手段就是就是交叉驗證,因此我們需要將數據集拆分成訓練集和測試集,這一步僅僅確定訓練集和測試集的比例關系,例如:70%的數據用於訓練,30%的數據用於測試。

數據的清洗是一件非常繁瑣且耗費時間的事情,基本可以佔到一個工程的30%到50%的時間。並且數據的清洗很難有規律可循,基本上依託於你對數據的基本分析與數據敏感度。當然,當你看的數據夠多,數據的清洗的經驗也就越多,會為你今後哦搭建模型提供很多遍歷,我們這里提供一些常見的清洗的點。

清洗異常數據樣本需要考慮到方方面面,通常情況下我們從以下方面:

1.處理格式或者內容錯誤:

首先,觀察時間,日期,數值等是否出現格式不一致,進行修改整理;其次,注意開頭,或者中間部分是否存在異常值;最後,看欄位和內容是否一致。例如,姓名的內容是男,女。

2. 邏輯錯誤清洗:

去重:通常我們收集的數據集中有一些數據是重復的,重復的數據會直接影響我們模型的結果,因此需要進行去重操作;

去除或者替換不合理的值:例如年齡突然某一個值是-1,這就屬於不合理值,可用正常值進行替換或者去除;

修改矛盾內容:例如身份證號是91年的,年齡35歲,顯然不合理,進行修改或者刪除。

3. 去除不要的數據: 根據業務需求和業務常識去掉不需要的欄位

4. 關聯性錯誤驗證: 由於數據來源是多個途徑,所以存在一個id,進行不同的數據收集,可通過,id或者姓名進行匹配合並。

該問題主要出現在分類模型中,由於正例與負例之間樣本數量差別較大,造成分類結果樣本量比較少的類別會大部分分錯。因此需要進行數據不平衡處理。常用的處理方法有:向上采樣、向下采樣、數據權重復制、異常點檢測等。

『玖』 智能數據算力真的會改變世界嗎

可能會改變世界。

智能數據算力指的是在萬物感知、萬物互聯、萬物智聯時代,有一種"新能源"如同水、電、燃氣、汽油一樣,「插上插頭、打開開關"就能得到源源不斷的供應。這種"新能源",即算力(又稱計算力),它滲透到日常生活的方方面面。比如此刻,你通過手機或電腦閱讀我的文字的時候,背後的算力也正在辛勤勞作。


以個人PC為例將帶來更加直接的算力感受。高配置的PC算力更高,能夠運行配置需求更高的游戲,更吃內存9的3D類軟體;而低配置的PC面對大型游戲、影音類軟體,經常出現卡頓、延遲和掉幀。這些背後都是因為不同設備對數據處理能力不同,也就是算力不同。專業領域里,在°摩爾定律+存算牆'的體系下,使用CPU+內存計算'相比較於傳統的"CPU+硬碟計算的架構,伺服器對大體量資料庫的算力可提高數倍。
但是,柏睿數據提出了一個"專用晶元+內存計算+高性能軟體優化"的架構,可以徹底突破"存算牆"掣肘,與傳統架構伺服器集群對比,新架構下的資料庫算力得到百倍提升;甚至在某些極限情況下,可提升三到四個數量級。

『拾』 機器學習深度學習講的都是一些演算法嗎

1、普通機器學習一般指的是像決策樹、邏輯回歸、支持向量機、xgboost等
2、深度學習主要特點是使用深度神經網路:深度卷積網路、深度循環網路、遞歸網路等
區別的話:
1、演算法層面上沒有任何相似的地方,硬要說相似可能就是大家的功能都是對高維函數的擬合吧。
2、普通機器學習比較擅長分析維度較低,可解釋性很強的任務。比如數據挖掘、推薦演算法。他們的特點是一般情況下採集的數據維度都不高,以廣告推送任務為例,一般分析的數據維度只會包含性別、年齡、學歷、職業等。可解釋性很強,調參方向較為明確。
3、深度學習演算法擅長分析高維度的數據。比如圖像、語音等。以圖片為例,一張圖片像素可能幾十上百萬,相當於特徵向量維度達到幾十上百萬,而且像素點與像素點之間的關系又不是特別明顯。這種時候用卷積神經網路能很有效的處理這種問題,基本很精確的抓取出圖片的特徵。但是每個維度的權重可解釋性極弱,調參方向很不明朗(神經元數量、隱含層層數等)
綜上,其實兩者差別很大的。深度學習是近幾年才發展起來的。傳統機器學習演算法大都來源於概率論,信息學。對於程序編寫的話,傳統機器學習模型基本上都集成在sklearn這個包裡面,深度學習可以用tensorflow作為框架
想詳細了解的話,傳統機器學習可以看李航老師的《統計學原理》或者周志華老師的《機器學習》(也叫西瓜書)。深度學習因為是這兩年才發展起來的相關書籍很少,可以去查近兩年的深度學習論文
當然兩者都需要比較扎實的數學基礎,主要是這三本:《線性代數》或《高等代數》、《高等數學》或《數學分析》、《概率論》或《隨機過程》
謝謝

閱讀全文

與數據處理模型算力相關的資料

熱點內容
xrp添加btc網關 瀏覽:919
rep以太坊合約 瀏覽:725
官方下載數字貨幣 瀏覽:10
數字貨幣能打敗美元嗎 瀏覽:627
澳洲買比特幣 瀏覽:852
rx480算力btc 瀏覽:690
以太坊幣挖礦難度 瀏覽:968
網路虛擬貨幣股票 瀏覽:760
以太坊從賬戶提取私鑰 瀏覽:181
比特幣五月份價格 瀏覽:245
580一天能挖多少比特幣 瀏覽:989
普通電腦可以挖的虛擬貨幣 瀏覽:28
以太坊幣行情分析 瀏覽:764
以太坊磨根大通 瀏覽:849
以太坊最新預 瀏覽:643
虛擬貨幣交易介面 瀏覽:925
比特幣最近不能交易記錄 瀏覽:627
白宮比特幣 瀏覽:740
以太坊技術性調整 瀏覽:153
虛擬貨幣是股份嗎 瀏覽:813