2019年8月12日 星期一

.AI 伺服器的定義、優勢及現狀

New Deep Learning Server: 
Cisco UCS C480 ML

OFweekk

在即將到來或者說已經到來的人工智慧時代,我們更多的是聽到 AI 伺服器這一名詞。那麼,究竟什麼是 AI 伺服器, AI 伺服器又為何適用人工智慧時代?

AI 伺服器的定義
從硬體架構來看, AI 伺服器主要指的是,採用異構形式的伺服器,表現形態多為機架式。在異構方式上,可以為 CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多種加速卡。


而在其他組成部件上,如內存模組、儲存模組、網路模組,與傳統伺服器差別不大,主要的提升便是支援更大容量的內存,滿足當下即時負載增加的需求,提供更多外置硬碟插槽,並廣泛支持 NVME/PCIE 等 SSD,滿足數據洪流需求,網路模組主要表現為頻寬增加。

儘管 AI 伺服器可以採用多種異構形式,但目前廣泛使用的是CPU+GPU。也因此,業界在談到 AI 伺服器時,往往將其默認為 GPU 伺服器。因此,在第二部分中,筆者談到的 AI 伺服器優勢也主要為 GPU 伺服器。


AI 伺服器的優勢
傳統伺服器主要以CPU為算力提供者。而CPU為通用型處理器,採用串行架構,擅長邏輯計算,負責不同類型種類的數據處理及訪問,同時邏輯判斷又需要引入大量分支,跳轉中斷處理,這使得CPU的內部結構複雜。也因此,CPU算力的提升主要靠堆核來實現。

隨著雲計算、大數據、AI、物聯網等技術應用,數據在近幾年呈指數型成長,IDC統計顯示全球 90% 數據均在近幾年產生,這便對 CPU 的處理能力提出考驗,而目前 CPU 的物理工藝、核心數已接近極限,數據量卻不會停止,伺服器的處理能力必須提升。因此,在 AI 時代下,僅由 CPU 做算力提供者的傳統伺服器並不能滿足需求。

不同於 CPU,GPU 採用並行計算模式,單卡核心數達到上千個,擅長處理密集型運算應用,如圖形渲染、計算視覺和機器學習。經過幾年驗證,搭載 GPU 的伺服器也被證實,的確適用這個時代。


AI 伺服器市場現狀
IDC 全球半年度人工智慧系統支出指南預測顯示,2019 年全球人工智慧系統支出將達到 358 億美元,相比 2018 年增加44.0%。同時,人工智系統支出到 2022 年,將翻一番達到 792 億美元,2018 年到 2020 年預測期內複合年成長率(CAGR)為38.0%。

這一數值也意味著, AI 伺服器的市場有多廣。也因此,全球幾大伺服器廠商,均緊鑼密鼓部署著 AI 伺服器。

而在GPU上,NVIDIA 具有明顯優勢,其 Tesla 系列產品在 AI 基礎設施市場佔據主導地位,尤其在線下訓練場景中,處於壟斷地位。


而在 AI 伺服器上,目前性能最強的為浪潮 AI 超級伺服器AGX-5,AGX-5是專為深度學習,和高性能計算的性能擴展設計,單機在 8U 空間裡,可以配置 16 顆 NVIDIA Tesla V100 Tensor Core 32GB GPUs,擁有 10240 個張量計算核心,計算性能高達每秒 2 千萬億次。




沒有留言:

張貼留言