深度學習算法的計算性能依賴強大的GPU計算能力,為了盡可能提高GPU資源利用率,數人云利用Mesos將GPU資源匯聚成資源池實現資源共享,并借用Docker交付深度學習的運行環境。
深度學習平臺利用nvidia-docker ( https://github.com/NVIDIA/nvidia-docker )容器化深度學習組件,同時,借助數人云搭建GPU集群,共享GPU資源。最終,為用戶提供了可一條命令部署深度學習環境的平臺。
NVIDIA GPU,平行計算平臺CUDA與Docker 的集成
在節點內部,數人云利用nvidia-docker幫助容器內部的程序調用外面主機上的CUDA Driver。CUDA Driver及GPU Driver安裝在外部Host上,CUDA Toolkit,及其它深度學習組件及用戶應用程序運行在Docker容器中。這樣既能快速配置環境,又保證了HOST不受用戶應用程序污染。
數人云打造的GPU集群,將深度學習的任務分配到服務器上,采用分布式計算方法,極大程度上提高了GPU的資源利用率。
2015年6月,Facebook資助清華大學交叉信息研究院,成立中國唯一的一家OCP實驗室,自2015年9月開始,數人云和清華大學交叉信息研究院助理院長徐葳博士合作在OCP實驗室開展數據中心方面的相關研究工作。今年3月,數人云聯合清華大學OCP實驗室完成“百萬并發”壓力測試,數人云通過10臺OCP服務器成功承載了百萬并發HTTP請求,并進行了廣泛的性能測試。