但在嶄新的AI時代,數據中心網絡性能也正在成為AI算力以及整個AI商用進程發展的關鍵瓶頸,正面臨諸多挑戰。
為此,2019年1月9日,華為以“網絡新引擎 AI贏未來”為主題發布了業界首款面向AI時代數據中心交換機CloudEngine 16800,將人工智能技術創新性的應用到數據中心交換機,引領數據中心網絡邁入AI時代。
AI時代數據中心網絡面臨三大挑戰
當前,數字化轉型的持續推進,正在提速驅動數據量暴增;同時,語音/視頻等非結構化數據占比持續提高,龐大的數據量和處理難度已遠超人類的處理能力,需要基于機器運算深度學習的AI算法來完成海量無效數據的篩選和有用信息的自動重組,從而獲得高效的決策建議和智慧化的行為指引。
根據華為GIV 2025(Global Industry Vision)的預測,企業對AI的采用率將從2015年的16%增加到2025年86%,越來越多的企業將利用AI助力決策、重塑商業模式與生態系統、重建客戶體驗。
作為人工智能的“孵化工廠”,數據中心網絡正成為AI等新型基礎設施的核心。但與此同時,隨著AI時代的到來,AI人工智能的算力也受到數據中心網絡性能的影響,正在成為AI商用進程的一大瓶頸。
華為網絡產品線總裁胡克文指出,AI時代的數據中心網絡將面臨以下三大挑戰:
挑戰1.AI算力。高性能數據中心集群對網絡丟包異常敏感,未來的網絡應該做到零丟包。但傳統的以太網即使千分之一的丟包率,都將導致數據中心的AI算力只能發揮50%。
挑戰2.大帶寬。未來5年,數字洪水猛增近20倍,現有100GE的網絡無法支撐。預計全球年新增數據量將從2018年的10ZB猛增到2025年180ZB(即1800億TB),現有100GE為主的數據中心網絡已無法支撐數據洪水的挑戰。
挑戰3.要面向自動駕駛網絡的能力。隨著數據中心服務器規模的增加,以及計算網絡、存儲網絡和數據網絡三網融合,傳統人工運維手段已難以為繼,亟需引入創新的技術提升智能化運維的能力,如何用新的技術去使能、把網絡問題排查出來成為業界都在思考的問題。
華為定義AI時代數據中心交換機三大特征
從行業大勢來看,隨著以人工智能為引擎的第四次技術革命正將我們帶入一個萬物感知、萬物互聯、萬物智能的智能世界,數據中心網絡也必須從云時代向AI時代演進。在華為看來,數據中心需要一個自動駕駛的高性能網絡來提升AI算力,幫助客戶加速AI業務的運行。
那么,AI時代的數據中心網絡究竟該如何建設呢?胡克文指出,“華為定義了AI時代數據中心交換機的三大特征:內嵌AI芯片、單槽48 x 400GE高密端口、能夠向自動駕駛網絡演進的能力。”
特征1.業界首款內嵌AI芯片數據中心交換機,100%發揮AI算力
從應用側來看,刷臉支付的背后是上億次圖像信息的智能識別,深度健康診斷需要基于數千個算法模型進行分析,快捷網購體驗離不開數百臺服務器的智能計算。也就是說,新商業物種的誕生,產業的跨越式發展以及用戶體驗得以改變,強烈地依賴于人臉識別、輔助診斷、智能推薦等AI應用的發展。
但由于AI算力受到數據中心網絡性能的影響,正在成為AI商用進程的關鍵瓶頸。為了最大化AI算力,存儲介質演進到閃存盤,時延降低了不止100倍,計算領域通過采用GPU甚至專用的AI芯片將處理數據的能力提升了100倍以上。
CloudEngine 16800是業界首款搭載高性能AI芯片的數據中心交換機,承載獨創的iLossLess智能無損交換算法,實現流量模型自適應自優化,從而在零丟包基礎上獲得更低時延和更高吞吐的網絡性能,克服傳統以太網丟包導致的算力損失,將AI算力從50%提升到100%,數據存儲IOPS(Input/Output Operations Per Second)性能提升30%。
特征2.業界最高密度單槽位48 x 400GE,滿足AI時代5倍流量增長需求
數據中心是互聯網業務流量匯聚點,企業AI等新型業務驅動了數據中服務器從10G到25G甚至100G的切換,這就必然要求交換機支持400G接口,400GE接口標準化工作已經于2015年啟動,目前針對數據中心應用已經完成標準化,400G時代已經來臨。
集群的規模是數據中心架構演進的動力,經典的無阻塞CLOS理論支撐了數據中心服務器規模從千臺、萬臺到今天10萬臺規模的發展,增大核心交換機容量是數據中心規模擴大的最常見手段。以一個1000T流量規模的數據中心組網為例,采用400GE技術,核心匯聚交換機需要5K個接口,相對100GE技術減少75%。
為此,CloudEngine 16800全面升級了硬件交換平臺,在正交架構基礎上,突破超高速信號傳輸、超強散熱、高效供電等多項技術難題,不僅支持10G→40G→100G→400G端口平滑演進能力,還使得單槽位可提供業界最高密度48端口400GE線卡,單機提供業界最大的768端口400GE交換容量,交換能力高達業界平均的5倍,滿足AI時代流量倍增需求。同時,CloudEngine 16800在PCB板材、工藝、散熱,供電等多方面都進行了革命性的技術改進和創新,使得單比特功耗下降50%。
特征3.使能自動駕駛網絡,秒級故障識別、分鐘級故障自動定位
當數據中心為人工智能提供了充分的技術支撐去創新時,人工智能也給數據中心帶來巨大利益,如借助telemetry等技術將異常信息送到集中的智能運維平臺進行大數據分析,這極大提升了網絡的運行和運維效率,降低運維難度和人力成本。但是當前計算和存儲正在融合,數據中心服務器集群規模越來越大,分析的流量成千倍的增長,信息上報或者獲取頻度從分鐘級到毫秒級,再加上信息的冗余,這些都使得智能運維平臺的規模劇增,智能運維平臺對性能壓力不堪重負降低了處理的效率。如何減輕智能運維平臺的壓力,在最靠近服務器,最靠近數據的網絡設備具有智能分析和決策功能,成為提升運維效率的關鍵。
CloudEngine 16800基于內置的AI芯片,可大幅度提升“網絡邊緣”即設備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力;通過本地智能結合集中的FabricInsight網絡分析器,構建分布式AI運維架構,可實現秒級故障識別和分鐘級故障自動定位,使能“自動駕駛網絡”加速到來。該架構還可大幅提升運維系統的靈活性和可部署性。
引領數據中心網絡從云時代邁入AI時代
自2012年進入數據中心網絡市場以來,目前華為已服務于全球6400+個用戶,廣泛部署在中國、歐洲、亞太、中東、非洲、拉美等全球各地,幫助互聯網、金融、政府、制造、能源、大企業等多個行業的客戶實現了數字化轉型。
2017年華為進入Gartner數據中心網絡挑戰者象限;2018年進入Forrester數據中心SDN網絡硬件平臺領導者;2013-2018年,全球數據中心交換機廠商中,華為連續六年復合增長率第一,發展勢頭強勁。
早在2012年,華為就以“云引擎,承未來”為主題,發布了CloudEngine 12800數據中心核心交換機,七年以來這款面向云時代的交換機很好的支撐了數據中心業務彈性伸縮、自動化部署等核心訴求。
而隨著本次華為率先將AI技術引入數據中心交換機、并推出面向AI時代的數據中心交換機CloudEngine 16800,華為也在引領數據中心網絡從云時代邁入AI時代。
2018年,華為輪值董事長徐直軍宣布:將人工智能定位為新的通用技術,并發布了人工智能發展戰略,全面將人工智能技術引入到智能終端、云和網絡等各個領域。而本次華為發布的業界首款面向AI時代數據中心交換機CloudEngine 16800,也是華為在網絡領域持續踐行AI戰略的集中體現。
而作為華為AI發展戰略以及全棧全場景AI解決方案的一個重要組成部分,CloudEngine 16800不僅是業界首款面向AI時代的數據中心交換機,還將重新定義數據中心網絡的代際切換,助力客戶使能和加速AI商用進程,引領數據中心真正進入AI時代。