近日,NVIDIA發布了NVIDIA DIGITS深度學習GPU訓練系統第2版(DIGITS 2) 和NVIDIA CUDA深度神經網絡庫第3版(cuDNN 3)。新軟件將讓數據科學家和研究人員能夠通過更快的模型訓練和更復雜的模型設計來創造更準確的神經網絡,從而加速其深度學習項目和產品的開發工作。
對數據科學家來說,DIGITS 2現在能夠在多顆高性能GPU上實現神經網絡訓練的自動擴展。與單一GPU相比,這種擴展在圖像分類方面能夠令深度神經網絡訓練的速度翻一番。
對深度學習的研究人員來說,cuDNN 3可優化GPU內存中的數據存儲,從而能夠訓練更大、更復雜的神經網絡。cuDNN 3還能夠提供高于cuDNN 2的性能,讓研究人員在單一GPU上最高可令神經網絡訓練速度達到兩倍。
全新的cuDNN 3庫預計將集成到Caffe、Minerva、Theano以及Torch等深度學習框架的未來版本中,這些框架被廣泛用于訓練深度神經網絡。
NVIDIA加速計算副總裁Ian Buck表示: “高性能GPU是為大學與大型網絡服務公司支撐深度學習研究與產品開發的基礎性技術。我們正與數據科學家、框架開發者以及深度學習社區密切合作,以便運用最強大的GPU技術、突破目前的極限。”
DIGITS 2的自動多GPU擴展最高可實現兩倍訓練速度
DIGITS 2是首個一體式圖形系統,它在圖像分類方面可指導用戶完成設計、訓練以及驗證深度神經網絡的整個過程。
DIGITS 2中全新的自動多 GPU 擴展功能通過在系統中的所有GPU上自動分配深度學習訓練任務,從而能夠最大限度地增加可用的GPU資源。利用DIGITS 2,在四顆NVIDIA Maxwell架構的GPU上,NVIDIA的工程師令著名的AlexNet神經網絡模型的訓練速度達到了單一GPU的兩倍以上。早期客戶的初步成果呈現了更好的加速效果。
雅虎旗下Flickr網站的人工智能架構師Simon Osindero表示: “在自動加標簽(Auto-tagging)這方面,在單一NVIDIA GeForce GTX TITAN X上訓練我們的一個深度網絡需要耗費大約16天時間,但是如果在四顆TITAN X GPU上利用全新的自動多GPU擴展功能,整個訓練只需5天即可完成。這是一個巨大的進步,它讓我們能夠更快地看到結果,還讓我們能夠在模型方面進行更廣泛地探索以便實現更高的精度。”
cuDNN3能更快地訓練更大、更復雜的模型
cuDNN是一款用于深度神經網絡的GPU加速數學例程庫,開發者可以將其集成到更高級的機器學習框架中。
cuDNN3在GPU內存中新增了對16位浮點數據存儲的支持,使可存儲的數據量翻了一番,優化了內存帶寬。憑借這一功能,cuDNN 3讓研究人員能夠訓練更大、更復雜的神經網絡。
百度研究院高級研究員Bryan Catanzaro表示: “我們認為,NVIDIA庫中的FP16 GPU存儲支持功能將讓我們進一步擴展我們的模型,因為當我們把單一模型的訓練任務擴展至多顆GPU時,這一功能將會增大我們硬件的有效內存容量并提升效率。這將會使得我們的模型精度進一步提升。”
至于在單一GPU上訓練神經網絡,cuDNN 3也能夠實現大大高于cuDNN 2的性能。它讓NVIDIA工程師在單一NVIDIA GeForce GTX TITAN X GPU上訓練AlexNet模型時實現了兩倍的速度。
上市情況
DIGITS 2預覽版今天上市,NVIDIA注冊開發者可免費下載。cuDNN 3庫預計將在接下來的幾個月里出現在各大深度學習框架當中。