1. 浪潮伺服器在深圳有經銷點嗎
目前在深圳有浪潮伺服器的只有十次方平台,可以上他們網站看看了解下,如果你就在深圳,可以去車公廟泰然科技園213棟3樓3D07,這是他們的詳細位置。
2. CNN可解釋性從入門到放棄
Kuo 是機器學習的前輩,看不慣幾年來的調參浪潮,因此自己開疆拓土提出了一套不用反向傳播(用傳統方法 PCA)的 CNN。雖然我不敢苟同,但是一代人有一代人熟悉的方法,這個世界需要弄潮兒,也需要擺渡人。
盡管 CNN 已經取得了 state-of-the-art 的地位,但是仍然存在一些問題:over-parameters:大量的參數進行反向傳播,數學上難以解釋;numerous tricks:復雜的網路結構、Dropout 等讓網路變得難以理解;sensitivitity:受到攻擊時魯棒性差。
針對這些問題 Kuo 搞了一個新的 CNN 模型 FF CNN,模型有三個 優點 :不需要反向傳播,因此速度更快,資源佔用少;每一個 layer 可解釋,layer 也不多,沒有深度學習的黑箱;是一個半監督(甚至可以是無監督)模型,不依賴於 label。
Kuo 正在改進的 缺點 有:准確率目前略低於帶有 BP CNN,但是仍有提升空間;雖然沒有明確說明,但是模型應該是 problem special 的,需要根據數據集特點手動調整。
此外,Kuo 設計了兩個方面的實驗對比 FF CNN 和 BP CNN:分類問題的准確率、受到攻擊時的魯棒性。
CNN 的含義
CNN 是一系列的特徵映射。這些特徵映射可以分為升維和降維兩類。
大多數時候都是在降維,少數時候是在升維。其中,升維是在掃描整個圖像,得到盡可能多的有效特徵。降維則是從當前特徵中選擇最有效的特徵。升維的方法有卷積。降維的方法有PCA、pooling。保持維度,增強特徵的方法有激活函數、全連接(也可以用於降維)。
卷積的含義
對於卷積公式我們可以這樣理解訓練參數 [圖片上傳失敗...(image-281cf0-1572431090839)]
:對於傳統的 BP CNN,它是過濾器的權重(需要優化的參數),求過濾器的權重與輸入數據的內積即為匹配過濾器的過程。我們還可以這樣考慮,將它當作一組線性空間的基,求基與輸入數據的積即為特徵在低維空間的近似。
池化的含義
卷積幫助我們得到貓的模式,池化幫助我們選擇貓的模式。池化會幫助我們選擇眾多模式中共有的部分。
比如,所有的 9 張貓都有相似的臉,池化就會抹掉其他信息,提取公共的貓臉。我們可以用統計分析模擬這個過程。
這里 Kuo 解釋了為何 max pooling 比 average pooling 更有效。這是因為 max pooling 能夠提取窗格內較遠的信息,從而更好的表徵位置不同而形狀相同的信息。比如,圖中的貓臉位置稍有不同,但是在 pooling 的作用下都回到了畫面中心。
多層感知器的含義
多層感知器在 CNN 中充當的是分類器的角色,每一個隱藏層都是一次映射,將輸入降維。我們可以這樣理解,每一次映射是從 intra-class 到 class 的過程,多次映射後獲得所需維度的 class。
比如,第一次映射區分了蟒蛇、眼鏡蛇、加菲貓、波斯貓,第二次映射區分了蛇和貓。多次映射後得到了在我們所需維度上的分類。
我們可以使用 K-Means 模擬這一過程,對於一個 40 -> 20 -> 10 的多層感知器,我們可以使用 K-Means 聚 40 類、20 類、10 類,模擬每一個隱藏層的輸入和輸出。
有了每一層的輸入和輸出,我們可以使用最小平方回歸(如上圖),求解 intra-class 到 class 的映射過程。從而,將反向傳遞計算 [圖片上傳失敗...(image-401532-1572431249509)]
變成了解方程計算 [圖片上傳失敗...(image-f088c1-1572431249509)]
。
集成與疊加
我們都知道,多層的 PCA 效果較差,因此 FF CNN 無法像 BP CNN 一樣通過疊加 layer 提高對特徵的表徵能力。但是 Kuo 認為,可以通過集成(ensemble)多種 FF CNN 來提高 FF CNN 的性能。FF CNN 就像一個簡單的小機器人,BP CNN 則是一個復雜的大機器人。FF CNN 通過量取勝,BP CNN 通過復雜性取勝。
在上圖中,Kuo 構建了 3 種 FF CNN,在受到攻擊時,可以採用多數投票制進行集成。一個小機器人被打倒,其他的機器人仍能存活下來。此外,Kuo 還列舉了根據 RGB 設計 FF CNN 集成的方法。
雖然 Kuo 沒有闡述 FF CNN 在並行等領域的應用,這個模型效率高、能耗低,比 BP CNN 具有更大的並行可能,未來或許會在嵌入式等領域大放光彩。
FF CNN 與 BP CNN 的應用場景抽象
Kuo 最後的總結很正經,前輩客觀地闡述了 FF 和 BP 的應用場景,批評了一些人(也就是我們這屆差生 233)不分 data collection 青紅皂白就上 BP 的做法。他說:
FF 是一種 data-independent 模型,因此它高效,適合解簡單問題。BP 是一種 data-driven 模型,因此它耗時,適合解復雜問題。
我們拿到一個 dataset 的時候,沒有人會跟你說這個 dataset 是簡單還是復雜的,你的 dataset 可能不是 pure 的。
如果你用 data-driven 模型,復雜的 data 可能會覆蓋簡單的 data 造成過擬合。如果你用 data-independent 模型,可能會因為無法表徵復雜的 data 而效果較差。
一切設計都要因 dataset 制宜。
Kuo 發表了一篇論文「 Interpretable Convolutional Neural Networks via Feedforward Design 」,表述嚴謹清晰,感興趣可以了解一下。
我很佩服這位前輩,手動把消耗大量算力的訓練參數自己 「解」 了出來。現在,我們不止能對結果求交叉熵,對比預測結果和實際 label 的差異,還能在每一步計算 FF CNN 求得的參數和 BP CNN 訓練的參數的差異。
從上圖我們可以看出,這個解和BP求得的解仍有一定距離。
https://zhuanlan.hu.com/p/51673309
3. GPU為什麼要做池化
用於提升GPU利用率。
當時在軟斗碼件定義CPU的賽道上,已經出現了如VMware的巨頭公司,但同為算力來源的GPU方面,卻並未出現足夠優秀的虛禪銷者擬化解決方案。截止2021年12月29日賀薯收盤,VMware的市值為493.02億美元,2021財年總收入為117.67億美元。另一方面,隨著AI、區塊鏈等技術的發展與應用,GPU的應用場景正在加速擴展,對於虛擬化解決方案的需求也愈發強烈。
4. WEB伺服器/應用服務/數據伺服器,分別有配置要求
虛擬化,如exsi6.7---vSphere針對機器學習和AI工作負載優化(簡單理解,傳統伺服器,無論
CPU與GPU,都有限的,最高配置,也有速度限的,,而虛擬化,就是將N台機的資源整合,所有機器都可調配,優化所有性能,將N台機合一使用。。。。)
我們在解藕了計算資源,存儲資源,網路資源後,新的應用場景,例如大數據,AI,ML需要新的算力技術,比如GPU。在vSphere7之前或者說在目前市場上的AI/ML算力解決方案中都是將GPU的算力和CPU.
基於vSphere針對機器學習和AI工作負載優化
像ML和AI這樣的現代應用程序需要計算加速來處理大型和復雜的計算。vSphere利用功能強大的加速器來處理VM或容器中的工作負載。基礎結構也可以用於某些HPC工作負載。
整合和共享硬體加速器
輕松確定未充分利用的孤立且昂貴的資源。不論位置如何,都可以遠程(全部或部分)共享硬體加速器。GPU資源的切分也變得靈活
現在和將來擴展
在整個基礎架構中利用GPU,並使用同一基礎架構集成不斷發展的技術,例如FPGA和定製ASIC。
5. ai算力雲誰最便宜
ai算力雲趨動雲最便宜。根據查詢相關信息顯示,趨動雲便宜好用的AI算力池化雲IDC數據顯示,以GPU為代表的加速卡擁有更多計算單元,更適合AI計算。