那些以太網曾經看來微不足道的“茍且”開始變得如鯁在喉,它讓人們越來越無法忍受。至少對于那些以AI為生的公司和個人而言,情勢正變得越來越緊迫:
根據華為GIV 2025(Global Industry Vision)的預測,企業對AI的采用率將從2015年的16%達到2025年86%,彼時,新增數據量達到180ZB,95%的非結構化數據(語音/視頻等)依賴AI處理,越來越多的企業將利用AI輔助決策、重塑商業模式與生態系統,并重建客戶體驗。
一項實測支持的業務觀察顯示,因為AI業務帶動的數據量高速增長,0.1%的以太網丟包率會導致AI的計算力損失約50%——面向AI,在計算和存儲領域已經取得突破之后,這一現實讓網絡設備供應商感受到了前所未有的壓力。
為提升AI運行效率,過去數年間,閃存已經大范圍進入存儲領域,它讓數據存儲的時延降低超過了100倍;在計算領域,GPU等主要服務于AI的芯片也將數據處理能力提升了100倍以上。
在ICT領域,AI的短板眼下只剩下一塊——網絡設備。針對這一問題,華為網絡產品線總裁胡克文認為,面向AI的未來,網絡設備應該做到“強制性”的零丟包。
每家ICT廠商都是努力做著同一件事情,生產出這類適應AI需求的網絡設備,全球范圍概莫能外。它意味著巨大的挑戰與創新,也意味著可見的、巨大的市場回報。
7天的訓練,4天完成
如今,圍繞這塊短板,華為再次領先了。在上周的春季新品發布會上,它推出了植入高能效AI芯片的新款交換機CloudEngine 16800。
CloudEngine 16800發布現場
這款業界首款面向AI時代的計算中心交換機,可以借助其實時學習訓練能力和獨創的iLossLess智能無損交換算法,在以太網中實現零丟包機制,并實現流量模型的自適應自優化。
2018年,華為輪值董事長徐直軍宣布,華為將AI定位為新的通用技術,并發布了AI發展戰略,全面將AI技術引入到智能終端、云和網絡等各個領域。
CloudEngine 16800能通過AI技術的應用實現突破,顯然直接受惠于此戰略的執行。基于AI技術,該款產品在網絡調優上實現了智能化:一個是單流局部調優,另一個是整網全局調優。
如果將網絡視作一個城市的交通網,前者實現了在一個十字路口智能調整紅綠燈時間的功能;而后者,則實現了動態關聯調整全市紅綠燈時間的功能。
據測算,這一系列AI技術的應用,不止在用戶端將AI算力從50%提升到100%,同時還將數據存儲IOPS的性能提升了30%.
一家互聯網巨頭已經對這款新品進行了測試,業務內容則是當下方興未艾的無人駕駛AI訓練。
訓練的效果讓人們大吃一驚——以往1天運行的數據需要訓練7天才能完成,而現在,這家公司只用了4天。對于高速的商業競爭而言,這幾乎是直接為用戶提供了一種接近核心的競爭力。
做一臺AI時代的交換機
華為也因此將“內嵌AI芯片”定義成了AI時代數據中心交換機的三大特征之一。在其最新定義中,另外兩項特征則分別是“單槽48 x 400GE高密端口”,和“能夠向自動駕駛網絡演進的能力”。
“如果這三大特征,你不符合的話,你可能就不是面向AI時代的數據中心交換機。”胡克文說。
2012年華為發布了100GE的正交架構產品CloudEngine12800數據中心交換機,并在此后一路高歌猛進。從2016年起,華為的數據中心交換機已連續三年蟬聯市場份額第一。2018年,在標志最高應用標準的金融行業,華為數據中心交換機也坐上了頭把交椅。
新品特性應對AI時代的3大挑戰
華為在技術創新上的投入一直為外界稱道,并被視為華為企業基因式的存在。但這種基因以何種形式在機體中發揮作用,外界通常知之甚少。在這一點上,CloudEngine 16800為實現跨越式硬件平臺升級所做的技術準備,則可以清晰地顯現出這一基因的“運作”方式。
為滿足AI時代流量倍增的需求,CloudEngine 16800單槽位提供了業界最高密度48端口400GE線卡,單機則提供業界最大的768端口400GE交換容量,這一交換能力是業界平均的5倍。
其中,針對400GE接口的標準化工作,華為早在2015年便已經啟動——考慮到企業AI等新型業務驅動了數據中服務器從10G到25G甚至100G的切換,華為判斷行業必然要求交換機支持400G接口,400GE接口標準化工作于2015年啟動,并針對數據中心應用完成了標準化。
此外,在新材料新工藝、能效和散熱等領域,CloudEngine 16800的創新林林總總,不勝枚舉。例如,在用戶直接可見的節能方面,與業界相比,新品可將平均每bit數據的功耗降低50%,這相當于每臺每年節省32萬度電,約合電費26萬元。
自動駕駛從秒級識別開始
另一項用戶可以直接感受到的革新,同樣來自于AI技術的應用。這種用戶可感知的能力被稱為“能夠向自動駕駛網絡演進的能力”。
在傳統數據中心,在接到故障告警后,技術人員必須依靠人工排查的運維手段定位故障,如果不夠幸運,一項故障排查通常需要數小時,甚至更長的時間。這在業務部門看來,顯然是無法接受的——它無法面向一個充滿挑戰的AI時代。
和解決丟包問題一樣,華為將問題“交還”給了AI,期待自動駕駛網絡能夠徹底改變運維人員面對的窘境。
現實中,汽車領域的自動駕駛技術正經歷著高速的演進,要在網絡世界實現自動駕駛,進程同樣存在,一步到位并不現實。在這一點上,胡克文相當樂觀:只要有夢想和追求,未來就一定能實現。
“首先,能不能做到在秒級(時長)中把故障識別出來?(那樣,IT人員的)壓力就會小很多。”他說。
要實現自動駕駛網絡,供應商至少要在算法、數據和本地推理與執行等領域同步推進,并在軟硬件技術端實現AI的閉環。
據胡克文透露,目前華為相關的iNetOps智能運維算法已經可以支持72大類典型故障,在盲測中,它支持的故障定位準確率超過了90%.
結合這些軟實力,以及內置AI芯片提供的硬支持,華為最終在CloudEngine 16800中大幅度提升了“網絡邊緣”即設備級的智能化水平,使得交換機具備了本地推理和實時快速決策的能力。通過本地智能和集中的FabricInsight網絡分析器,CloudEngine 16800構建了一個分布式AI運維架構,并最終實現了秒級故障識別和分鐘級故障自動定位。
這一系列的努力,最終讓CloudEngine 16800在AI時代背景下展現出了它與眾不同的一面。
在同一背景下,數據中心已經成為了AI的“孵化工廠”;現在,要讓這個AI在企業數字化轉型中扮演更為重要的角色,“孵化工廠”的升級也已進入了時間的節點。
或許,就像華為所努力的方向一樣,“孵化工廠們”也是時候考慮如何建設一個自動駕駛的高性能網絡來提升AI算力,并最終實現AI業務的加速了。畢竟,AI時代的網絡,斷然不會接受“茍且”。