2018年8月13日 星期一

.人工智慧和光纖技術對數據中心有哪些影響?

HPE InfoSight: AI for the Data Center ChalkTalk




来源: 中国IDC圈


人們通常從電影中,瞭解一些似乎與現實相差甚遠的概念,但這些概念卻很快融入人們的日常生活中。1990年上映的一部由阿諾·史瓦辛格主演的電影中,一輛名為「Johnny Cab」的無人駕駛汽車讓人印象深刻,可以將人們送到任何他們想去的地方。如今,大多數大型汽車公司都在投入巨資,將這項技術帶給大眾。


回溯到1968年,人們透過HAL9000對人工智慧(AI)有了一些瞭解,HAL9000是一部主題為,太空漫遊的電影中的一台有感知的電腦。HAL9000能夠實施語音和臉部辨識、自然語言處理、唇讀、藝術欣賞、解釋情感行為、自動推理,甚至可以下棋。

而在過去幾年,人們已經確定人工智慧,成為日常生活中不可或缺的一部分。例如可以採用智慧手機,查詢旅行目的地的天氣情況,虛擬助理可以播放人們喜歡的音樂,人們的社交媒體帳戶,將根據其個人喜好提供新聞更新和廣告。

但是在這些背景中發生了更多的事情,人們並不瞭解有助於促進健康甚至拯救生命、語言翻譯、新聞提要、臉部辨識、更加複雜疾病的準確診斷,以及加速藥物開發等企業開發,和部署人工智慧的一些應用。


根據調研機構Gartner公司的預測,到2022年,人工智慧衍生的商業價值,預計將達到3.9萬億美元。

那麼人工智慧技術如何對數據中心產生影響?早在2014年,谷歌公司就在其中一個數據中心設施中,部署了Deepmind AI(使用機器學習和人工智慧的應用程式)。

其結果是,能夠將數據中心,用於冷卻的能源減少40%,這相當於在考慮到電氣損耗,和其他非冷卻效率之後,PUE值減少了15%,這也產生了該數據中心有史以來最低的PUE。基於這些顯著的成本節省,谷歌公司希望在其他數據中心中,部署該技術,並建議其他公司也這樣做。

Facebook公司秉承的使命是「讓人們有能力建立社區,讓世界更緊密地聯繫在一起」,Facebook公司的應用機器學習白皮書,從數據中心基礎設施視角進行概述,它描述了支持全球範圍內,機器學習的硬體和軟體基礎設施。

為了讓人們瞭解人工智慧和機器學習,需要多少計算能力,百度公司矽谷實驗室的首席科學家Andrew Ng表示,培訓百度的中文語音辨識模型,不僅需要4TB的訓練數據,還需要20部電腦的exaflops計算量,也就是整個培訓週期內需要200億億次數學運算。

但是對於數據中心基礎設施呢?人工智慧將如何影響企業,希望建構、租賃或升級,所有不同規模和類型的數據中心的設計和部署,以適應這種創新的、節約成本,甚至挽救生命的技術?

機器學習可以在一台機器上運行,但由於數據量驚人,通常在多台機器上運行,所有這些都相互關聯,以確保在培訓和數據處理階段,獲得持續通信、更低的延遲,絕對不能中斷的服務。人們對越來越多的數據的渴望,推動了滿足需求頻寬量的指數成長。

這些頻寬需要使用,更加複雜的架構設計,並在多個數據中心設施內部,和跨多個設施進行分布,其中需要採用脊柱和葉脊網路,而人們正在關注超級葉脊網路,為所有複雜的算法,提供在不同設備之間,流動數據的高速公路,並最終回到受體。


數據中心的技術部署選項
這就是光纖在確保人們,上傳圖片或影像提供給全世界觀看、分享和評論方面,發揮關鍵作用的地方。光纖已經成為數據中心基礎設施的事實上的傳輸媒介,這要歸功於其高速和超高密度功能。

隨著人們向更高的網路速度遷移,還在混合部署中,引入了全新的複雜性,也就是將採用哪種技術?

傳統的三層網路使用核心、聚合和邊緣交換來連接數據中心內的不同伺服器,其中伺服器間流量,透過活躍設備在南北方向上相互通信。然而現在,人工智慧和機器學習,可以帶來高計算要求和相互依賴性,更多的這些網路是使用兩層脊柱和葉脊網路實現的,其中伺服器由於超低延遲需求,透過生產和培訓網路而在東西方向上相互通信。


自從2010年IEEE,推出40G和100G網路傳輸技術標準以來,已經出現了許多競爭性的專有解決方案,這些解決方案讓那些不確定要遵循哪條路徑的用戶有些困惑,例如是否採用SR、多模、LR、單模等技術。

40G和100G這兩種技術,都使用一對光纖在兩個設備之間傳輸信號。無論人們使用哪種設備,或在該設備中安裝哪個收發器,這都是透過兩根光纖進行的簡單數據交易。

但是IEEE批准了40G,以及更快的網路解決方案之後,其競爭對手之間改變了遊戲規則。現在人們正在研究使用標準認可的,或專有的、不可互操作的WDM技術的兩種光纖,以及使用8芯光纖(4根傳輸、4根接收)的並行光學器件的標準認可,或多源協議(MSA)和工程技術接收),或20芯光纖(10根傳輸,10根接收)。

因此現在已經簡化了一切,以下進行簡單的總結。

如果企業希望繼續使用,經過標準認證的解決方案,並降低光學器件成本,因為企業不需要單模光纖的長距離功能,那麼可以選擇多模並行光學器件,這樣就可以突破更加快速的40G,或100G開關端口,分為較小的10或25G伺服器端口。

如果企業希望延長,已安裝的雙工光纖的使用壽命,並且不介意與其首選硬體供應商,保持聯繫而不需要互操作性,並且不需要更長的距離,則可以選擇其中一種多模WDM解決方案。

大規模部署人工智慧的大多數科技公司,正在為當今和未來的網路設計單模並行光纖解決方案。這有三個簡單的原因。


(1)成本和距離
目前的市場趨勢是首先開發和發佈並行光纖解決方案,WDM解決方案緊隨其後,因此並行光學解決方案的數量要高得多,從而降低了製造成本。

與2km和10km WDM解決方案相比,它們還支持更短的距離,因此企業不需要部署過多複雜的組件,來冷卻雷射器,並在兩端複用和解複用信號。

雖然人們已經看到這些,「超大規模」數據中心設施的規模,但調查數據顯示,在這些設施中單模光纖的平均部署長度,尚未超過165m,因此無需購買更昂貴的WDM收發器,來驅動他們不需要支持的距離。

並行單模也比WDM解決方案,使用更少的電能,正如之前從谷歌的例子中,看到的電源使用情況,為了減少數據中心最大的營運成本,任何可以做的事情都是一件好事。

(2)靈活性
部署並行光學器件的主要優勢之一,是能夠採用高速交換機端口,例如40G,並將其分解為4×10G伺服器端口。端口突破提供了巨大的規模經濟,因為突破低速端口,可以顯著減少電子設備的機箱,或機架安裝單元的數量,從3:1(並且數據中心資產並不便宜)並且使用更少的電能,需要更少的冷卻設施,並且可以進一步降低能源費用,調查數據表明這相當於單模解決方案節省了30%的成本。

光纖收發器供應商還確認,所有銷售的並行光纖收發器中的很大一部分,都是為了利用這種端口分支功能而部署的。

(3)簡單明晰的遷移
主要交換機和收發器供應商的技術路線圖,為部署並行光學器件的客戶,顯示了非常清晰和簡單的遷移路徑。而大多數科技公司都在遵循這條路線,所以當光學器件可用,並且從100G遷移到200或400G時,它們的光纖基礎設施仍然存在,無需升級。

那些決定使用雙工雙光纖基礎設施的企業,可能會發現自己希望升級到100G以上,但WDM光纖系統,可能無法在其遷移計劃的時間範圍內提供。
對數據中心設計的影響
從網路連接的角度來看,這些網路是高度網狀的光纖基礎設施,以確保沒有一台伺服器相互之間,有兩個以上的網路躍點。但是這樣的頻寬需求,甚至從脊柱交換機到葉脊交換機的,傳統3:1超額配置比率還不夠,並且更典型地用於來自不同數據大廳之間的超級脊柱的分布式計算。

由於交換機I/O速度的顯著提高,網路營運商正在努力提高利用率,提高效率,提供超低的延遲。

此外,在谷歌公司最近宣佈,推出最新的人工智慧硬體之後,傳統的數據中心,設計轉向了另一個轉變,這是一種名為Tensor Processing Unit(TPU 3.0)的定制專用整合電路(ASIC),在巨大的吊艙設計中,將其功能提高了8倍。

但是,在晶片中加入更多的計算能力,也會增加驅動它的能量,從而增加熱量,這就是為什麼數據中心採用液體冷卻,為晶片提供冷卻的原因,因為TPU 3.0晶片產生的熱量,已經超出了之前數據中心冷卻解決方案的限制。


結論
人工智慧是下一波業務創新浪潮。它可以帶來營運成本節約,額外的收入流,簡化的客戶互動,以及更高效的數據驅動的工作方式,其具有很多優勢。

最近的一次小組討論證實了這一點,專家當時表示使用聊天機器人的網站,如果效率不高且客戶關注度不夠,客戶就會放棄對話,並且很難再次合作。

因此,人們必須接受這項技術,並將其用於其業務優勢,這也意味著採用不同的方式,思考數據中心的設計和實施。由於專用整合電路(ASIC)的性能顯著提高,人們最終會看到I/O速度的提高,甚至更深層次地推動網路連接的發展。

企業的數據中心,需要超高效的高速光纖網路、超低延遲、東西方向的脊柱和葉脊網路,以適應企業日常生產流量,同時支持機器學習培訓。

人們已經看到了主要的科技公司,如何接受人工智慧,以及如何部署並行單工模式,幫助他們實現比傳統雙工方法,更高的資本和營運成本,傳統的雙工方式從一開始就承諾降低成本。

但是隨著數據中心的營運以及繼續發展,專業人員的習慣和交流方式在不斷變化,提高了網路速度,並增加了複雜性。

現在安裝正確的布線基礎設施解決方案,將使企業從一開始,就獲得更大的經濟利益,保留並吸引更多客戶,並使企業的數據中心設施能夠蓬勃發展。


沒有留言:

張貼留言