也許你還沒有察覺,但IDC的這些預測數據在提醒著我們每一個人,人工智能時代正加速到來,其已不再僅僅是實驗室中的數據模型,產業界正在不懈地探索人工智能應用落地的路徑。
政府、金融、互聯網、新零售、新制造、醫療,未來這六大行業應用AI的3年復合增長率將超過30%。不過要說的是,人工智能“撲面而來”,能夠對其起到關鍵支撐作用的底層基礎設施已經準備好了嗎?
算法、算力、數據被稱為推動AI發展的“三駕馬車”,到今天深度學習算法已經形成突破,不過算法驅動的智能程度嚴重依賴海量的樣本數據和高性能的計算能力。當下,在提升AI數據處理的效率方面,存儲和計算領域已經發生革命性的變化。
存儲介質從機械硬盤(HDD)演進到閃存盤(SSD),來滿足數據的實時存取要求,介質時延降低了不止100倍;在算力方面,業界已經在采用GPU甚至專用的AI芯片,處理數據的能力提升了100倍以上。
不過雖然存儲介質和計算能力在大幅提升,但當前網絡通信時延卻成為性能進一步提升的瓶頸。通信時延在整個存儲E2E(端到端)時延中占比從10%躍遷到60%以上,也就是說,寶貴的存儲介質有一半以上的時間是空閑通信等待;計算瓶頸也類似,如某語音識別訓練,每次迭代任務時長為650ms~700ms,通信時延為400ms, 同樣,昂貴的處理器也有一半時間在等待模型參數的通信同步。
所以回到上面那個問題,在推動AI發展起到關鍵支撐作用的底層網絡基礎設施是否已經準備好?答案是Yes也是No。
網絡通信成為系統性能的短木板
RDMA的變遷和AI網絡的新訴求
可能有的人對這個結論產生疑問,他們會說RDMA(Remote Direct Memory Access,即遠程直接數據存取)已大大降低了通信時延。的確,RDMA在AI運算和SSD分布式存儲追求極致性能的網絡大潮中,替換TCP/IP已是趨勢。目前,國內外不少互聯網公司已經開始部署RDMA,甚至大規模部署,例如微軟等企業。
因為RDMA的內核旁路機制,允許應用與網卡之間的直接數據讀寫,將服務器內 的數據傳輸時延降低到接近1us(微秒)。同時,RDMA的內存零拷貝機制,允許接收端直接從發送端的內存讀取數據,極大地減少了CPU的負擔,提升CPU效率。
但RDMA并不完美,專用InfiniBand和傳統以太網絡是RDMA的兩類網絡承載方案。具體說來:
InfiniBand是一個用于高性能計算的計算機網絡通信標準,不同于傳統 TCP/IP協議棧,Infiniband擁有自己的網絡層和傳輸層協議。而絕大多數現網都采用IP以太網絡,所以對于需要廣泛互聯的AI計算和分布式存儲系統,采用InfiniBand無法滿足互通性需求。并且,作為專用的網絡技術,Infiniband無法繼承用戶在IP網絡上運維的積累和平臺。
對于基于傳統的IP以太網絡來承載RDMA方案來說,其缺乏完善的丟包保護機制,>10-3的丟包率,將導致RDMA有效吞吐急劇下降。很多廠家會采用PFC(Priority-based Flow Control,基于優先級的流控)和ECN(Explicit Congestion Notification,顯式擁塞通知)機制來避免丟包提升吞吐率,而現有的RDMA擁塞&調度算法,導致網絡設備極易出現隊列累積,從而觸發PFC。網絡中如果出現大量PFC,極有可能誘發網絡死鎖,導致網絡系統性風險。
所以,RDMA的高效運行,離不開一個0丟包、高吞吐的開放以太網作為承載。并且,在由應用架構從集中式走向分布式架構過程中造成的incast突發流量和“大包”特征,也進一步加劇了網絡擁塞。
總之,無論是應用分布式架構,還是RDMA通信效率的角度,均呼吁數據中心網絡發生變革。近日,華為發布了《AI Fabric, 面向AI時代的智能無損數據中心網絡》白皮書(以下簡稱“白皮書”),白皮書指出,這場AI驅動的網絡變革需要更智能的調度和無損的轉發,實現零丟包、低時延、高吞吐的智能無損數據中心網絡。
AI Fabric打造面向AI時代的智能無損網絡
在HUAWEI CONNECT 2018上,華為正式發布了AI Fabric智能無損數據中心網絡方案。“0丟包”,“低時延”和“高吞吐”即是AI Fabric的三個核心特征,這背后源自于華為創新的iLossless AI算法技術,提供獨特的精確擁塞流識別、動態擁塞水線設定和快速反壓機制等系列擁塞管理和流量控制能力,從而帶來極致網絡性能。
白皮書指出,面對動態流量和海量參數挑戰,華為一方面投入研究團隊分析各種應用,提煉出流量模型特征;另一方面通過在交換機集成AI芯片,實時采集流量特征和網絡狀態,基于AI算法,本地實時決策并動態調整網絡參數配置,使得交換機緩存被合理高效利用,實現整網0丟包。
AI Fabric帶來的卓越性能進一步也提升了其所帶來收益:45倍的ROI(投資回報率)。怎么得出來的?
據權威第三方測試機構歐洲高級網絡測試中心(以下簡稱EANTC)測試結論,AI Fabric可以在HPC場景下最高降低44.3%的計算時延,在分布式存儲場景下提升25%的IOPS能力。從商業價值角度看,25%的IOPS性能提升相當于同性能下存儲投資減少25%。以512個節點組成的分布式存儲系統為例,采用AI Fabric意味著384個存儲節點即可獲得采用傳統網絡512個存儲節點的IOPS (Input/Output Operations per Second,每秒讀寫次數)性能。綜合測算,存儲CAPEX(Capital Expenditure,固定支出)降低的收益與AI Fabric的投資相比,至少可帶來45倍的ROI收益率。
并且同樣重要的是,基于標準的以太網架構,華為AI Fabric帶來了一張統一融合的網絡。一張網可承載LAN(局域網)、SAN(存儲區域網絡)和IPC(進程間通信)三種流量,避免了專網獨立維護。
一般說來,當前的數據中心內部有三張不同的網絡: Infiniband網絡提供低時延的網絡IPC通信,FC網絡提供高可靠0丟包的存儲網絡,而傳統的以太網承載一般的業務。顯然,這樣當前數據中心網絡整體成本很高。AI Fabric同 時承載SAN和IPC流量和一般LAN流量,成為AI時代的數據中心構建統一融合網絡架構的最佳選擇。
在產品端,華為則提供了AI Ready的交換機硬件架構,支撐AI Fabric長期演進。AI Fabric通過內嵌AI智能芯片的CloudEngine交換機,基于CLOS組網模型構建Spine-Leaf兩級智能架構:計算智能和網絡智能結合,全局智能和本地智能協同。
在核心層設備智能方面,華為將于2019年1月9日發布內嵌AI芯片的下一代智能數據中心交換機,從而為AI Fabric的未來智能演進提供硬件架構保證。
AI Fabric的實踐和未來
當然,華為打造的AI Fabric智能無損數據中心網絡方案并不是一套理論方案,它已經得到檢驗和實踐。就像上文所說,AI Fabric經過了EANTC的嚴格測試驗證,在高性能計算和分布式存儲的所有場景測試用例中,都實現了高吞吐和零丟包,并基于網絡時延的優化有效縮短高達40%的HPC節點間通信時長,大幅提升AI訓練等創新業務效率。在今年的東京Interop展上,華為AI Fabric還榮獲了官方發布的Best of Show Award金獎。
目前,AI Fabric已經在互聯網和金融行業得到應用。
某互聯網巨頭布局無人駕駛,但因涉及到大量的AI計算(1天采集的數據,需要幾百的GPU服務器7天才能訓練完),嚴重影響無人駕駛的上市時間。通過華為AI Fabric提供0丟包、低時延、高吞吐的極速無損以太網絡,最終使得整體訓練的時長縮短40%。
在招商銀行,AI Fabric智能擁塞調度加速網絡通信,經實測最終存儲集群IOPS性能提升了20%,單卷性能達到35萬IOPS。加速了招商銀行分行云性能,為用戶提供了像訪問本地盤一樣的使用體驗。
總之來說,AI正在走進越來越多的企業,就像華為GIV(Global Industry Vision)所預測:到2025年企業對AI的采用率將達到86%,越來越多的企業將AI視為數字化轉型的下一站。
在這一轉型進程中,數據中心網絡亟需消除自身短板,從而轉向更高吞吐、更低時延、更可靠、穩定和融合的鏈路技術和網絡協議。AI Fabric智能無損數據中心網絡無疑為市場提供了一個面向AI時代的極佳選擇。