作為衡量計算力強弱的核心載體,近幾年芯片業可謂是風水輪流轉,換家坐莊。這邊剛傳出博通要1300億美元收購高通,那邊馬上就說英特爾和AMD這對多年的老冤家都決定聯手了,而近日芯片巨頭英偉達發布的2018財年第三季度財報則同樣廣受關注,其第三財季營收達到創紀錄的26.4億美元,截止今年目前為止,其股價已經上漲了約92%。
應該看到,英偉達營收創紀錄及股價暴漲的背后,是受益于以人工智能為代表的對圖形芯片的強勁需求而推動,人工智能對于GPU的空前依賴同樣也促進了廠商對于芯片的加速換代升級。依靠算法、數據和計算為基礎支撐點的人工智能,面對空前高漲的計算力,迎來了全新的發展機遇。以GPU為代表的計算設備單位面積和單位功耗的計算能力的極大提升,帶來了計算密度的提高和機柜成本的快速下降,以此為高性能計算快速步入大眾視野打下了堅實的物理基礎。而其中具有代表性的金山云高性能計算,經過多次迭代演進,已經成為高性能計算中的領導者。
金山云異構高性能計算解決方案
高性能計算成為應對爆炸式增長神經網絡的必然選擇
由于集成電路制程工藝趨于接近摩爾定律的物理極限——接近硅極限的7nm,單芯片與單系統的性能提高也開始逐漸變慢甚至趨于停滯,無法滿足不斷爆炸式增長的神經網絡規模,此時,高性能計算集群就成了必然選擇。金山云通過使用業界頂配的GPU服務器加上高帶寬與低延遲的RDMA網絡,搭配高性能存儲服務,為用戶構建了可伸縮的高性能計算集群,來應對不斷增長的業務需求。
以運算需求來劃分,在初始階段,服務器只是面對web、游戲等普通運算,沒有太多計算壓力;而隨著AI訓練與推理應用等強計算需求不斷涌來,原來AI所依賴的深度學習的網絡規模呈現了指數級增長,深度神經網絡的參數從6百萬增加到了87億,對服務器產生了非常大的壓力,基于公有云的高性能計算平臺,成為應對該類需求的不二之選。用戶可以根據業務按需創建GPU服務器資源,該類GPU服務器原生支持VPC網絡,GPU服務器之間擁有20Gbps的高性能網絡帶寬,且都位于高品質的IDC機房,擁有電力和網絡的冗余保護,同時完善的監控體系,保障業務穩定運行。
以計算能力來劃分,相對以前使用大量的CPU去堆砌超級計算的時代,現在一塊GPU的計算能力,相當于之前幾千塊CPU搭建起來的超級計算機的能力,但對于普通終端用戶而言,基于此專門去購買相應設備依然花費不菲。加上GPU設備本身采購成本極其高昂,大量采購GPU物理服務器帶來了極大的資金占用,而由于GPU領域使用比摩爾定律更激進的黃氏定律,進而導致折舊成本更高。用戶在面對新的業務需求時,硬件層面顯得捉襟見肘,無業務彈性。
而訓練更大規模的神經網絡就需要更大規模的集群,高性能計算的出現,可謂極大解決了原有大集群的搭建和維護帶來的資金和運營壓力,用戶只需租用云服務商的高性能計算服務,無購買硬件所存在的資金占用風險,以比較低的使用成本彈性使用資源,即買即用應對業務變化,同時始終可以用到最新的高性能計算加速硬件,這也是高性能計算得以快速發展的根本原因。
金山云高性能計算賦能人工智能加速發展
金山云做為業內最早提供公共IaaS服務的云計算廠商之一,提供了業內最豐富的異構高性能計算服務,包括彈性GPU/FPGA服務、GPU專屬云服務、異構超算平臺(KHSP)和KIS-GPU服務(Kingsoft integrated Service),為大規模神經網絡的深度學習用戶和通用高性能計算用戶提供最優質、便捷的云端體驗,讓用戶根據業務需求,靈活創建和使用適合自身的高性能計算集群。
在彈性GPU/FPGA服務方面,金山云提供了基于EPC的GPU服務器和基于KEC的GPU服務器兩種產品形式,同時滿足性能與靈活性的需求。此外,利用業界領先的的VPC網絡,不僅可以連通用戶在金山云上的物理服務器和云服務器,還可以方便連通用戶自己在金山云其他區域的服務,實現計算能力的按需調配和靈活擴展。
金山云彈性GPU/FPGA服務
在GPU專屬云服務方面,金山云通過搭建用戶專屬GPU服務資源池,讓用戶根據自己的需求配置不同CPU/GPU/內存和硬盤的云服務器,實現物理資源在使用期間僅運行用戶專屬業務(即資源隔離),讓計算性能得到有效保障。用戶可在業務高峰時把部分云服務器遷移到專屬云中,或在高峰來臨之前向專屬云添加更多的GPU計算資源,開啟更多的服務實例,待高峰過去后,再將這些節點退出專屬云。
在異構超算平臺方面,基于優秀的物理機調度能力和VPC網絡,可以快速為用戶構建量身定制虛擬超算平臺,讓用戶獨享平臺的物理計算節點資源,有效滿足人工智能對高性能計算力的需求。在技術實現上,利用金山云已經構建起來的256節點集群,抽取GPU、CPU或FPGA的加速資源組成虛擬超算集群,受益于虛擬網絡,展現在用戶面前的依然是一個完整的超算集群。
在KIS-GPU方面,KIS作為金山云推出的綜合性混合云服務,主要負責高性能計算設備的托管和租賃,實現用戶自有設備和公有云服務資源的有序調度。用戶除了可以將自有GPU服務器托管到金山云KIS,高效利用已有資產;同時又具備公有云資源使用能力和BGP的服務投送能力,釋放計算應用靈活性,解決了不同時期人工智能使用場景中對計算能力的需求。