這是人工智能 (AI) 發展中令人難以置信的激動時刻。以前,只有在某一領域擁有深厚專業知識的公司才有可能使用人工智能。短短幾年后,我們看到世界各地的英特爾客戶使用人工智能在各種用例和環境中取得了變革性的成功。這是由于軟件工具、生態系統和硬件能力都日漸成熟。
客戶們發現,沒有單一的“最佳”硬件來運行各種各樣的人工智能應用程序,因為沒有單一類型的人工智能。應用程序的限制決定了從數據中心到邊緣到設備所需硬件的能力,這再次強調了對更多樣化的硬件產品組合的需求。它們涵蓋各種各樣的應用程序,不管出現在何處,都將為英特爾客戶帶來最高回報。
從擅長對大量非結構化語音和文本數據進行訓練和推理的英特爾至強可擴展處理器,到為實時推理提供出色吞吐量和低延遲的靈活英特爾FPGA,再到為攝像頭提供超低功耗推理的英特爾Movidius視覺處理單元 (vpu),以及即將推出的英特爾Nervana神經網絡處理器(英特爾Nervana NNP)。英特爾Nervana NNP從頭開始全新打造,目標是加快深度學習速度,英特爾提供了一個深度硅芯片基礎,專為啟用數據中心創新而定制,讓數據能夠實時存在于從端點設備到邊緣,再到數據中心和云。
我們正在對軟件進行大量投資,以讓這些功能可在我們的產品組合之間移植,從而將人工智能帶到各種應用程序中,而不受任何限制。像 nGraph這樣的開源項目,降低了跨不同硬件平臺對不同深度學習框架(例如 TensorFlow、MXNet和 PyTorch等)進行優化的難度。這為開發人員提供了向其客戶提供最佳體驗的選擇。
在最近的數據中心創新峰會上,我有機會參與討論了英特爾針對各種應用的全面采用英特爾至強可擴展處理器的高級深度學習訓練
挑戰:通過自動分析顯微鏡圖像中成千上萬個不同的特征,發現新的治療方法,這些圖像尺寸遠大于傳統深度學習數據集中的圖像尺寸。
解決方案:利用基于英特爾至強可擴展處理器平臺的大內存容量和高性能計算能力。
高內涵篩選是藥物發現的重要工具。這是一項極具挑戰性且耗時的工作,需要從圖像中提取成千上萬的預定義特征。
今天,在我們以數據為中心的創新峰會上,我們描述了諾華如何與英特爾合作,利用深度學習來加快細胞培養顯微圖像的分析,以研究各種治療的效果。由于使用了完整的顯微鏡圖像,本評估中的圖像尺寸比普通深度學習基準中使用的圖像尺寸大得多。例如,比 ImageNet數據集中的圖像尺寸大超出 26 倍。
盡管由于訓練模型中的參數數量以及所用圖像的尺寸和數量,提出了計算要求和內存需求,但團隊使用了英特爾至強金牌 6148 處理器、英特爾Omni-Path 架構和 TensorFlow 1.7.0 搭建的系統進行訓練,因而訓練時間節省了 20 倍1。英特爾硬件可支持卓越的內存容量,支持每秒超過 120 張 390 萬像素的圖像。
正如此例和其他例子所展示的那樣,CPU 架構更適合滿足很多現實世界深度學習應用的需求。此外,源源不斷的投資正在涌入,旨在增強基于英特爾至強可擴展處理器的平臺性能,隨著平臺發布,很多熱門框架的推理速度都有提升。而隨著我們新一代英特爾至強處理器(代號為 Cascade Lake)的推出,推理速度更提升至 11 倍。未來對英特爾Optane DC 持久內存的平臺支持,將擴展 CPU 附近的內存容量,以支持對更大數據集的訓練。
在創新峰會上,我們還宣布了英特爾DL Boost,這是一套旨在加快人工智能深入學習速度的處理器技術。Cascade Lake 還將采用矢量神經網絡指令集 (VNNI),該指令集在一條指令中完成了之前采用的三條指令。Cooper Lake 是繼 Cascade Lake 后的英特爾至強可擴展處理器,將為英特爾DL Boost 增加對 bfloat 16 的支持,進一步提升了訓練性能。
我們還致力于讓英特爾至強處理器更容易讓客戶進行滿堆棧部署,就像在英特爾Select 解決方案中所做的那樣。Apache Spark上針對 BigDL 的全新英特爾Select 解決方案配置是我們與阿里巴巴、亞馬遜、中國電信、微軟和 Telefonica 等行業領先企業合作的結晶,也是我們從數百次部署 BigDL 中獲得的重要經驗,旨在提供一種配置,讓客戶能夠為現有數據湖快速部署人工智能功能。該解決方案包括硬件和軟件組件,是我們第一個面向人工智能的英特爾Select 解決方案,2018 年下半年由我們的合作伙伴面向市場發售。
英特爾FPGA 實時深度學習推理
挑戰:開發一個實時深度學習平臺,可以靈活地跨多個 Microsoft 用例進行擴展。
解決方案:利用英特爾Arria FPGA 的微軟 Project Brainwave 硬件架構。
微軟 Project Brainwave 是一個深度學習加速平臺,是基于適應性強、省電、高通量的英特爾 FPGA 之上構建的。Project Brainwave 憑借極具競爭力的成本和極低延遲來實現實時推理功能。在不斷發展的人工智能環境中,FPGA 能夠重新編程以獲得最高性能,是很多深度學習應用的重要工具,包括從搜索、語音識別到視頻內容分析等應用。
微軟最近宣布,Azure 機器學習加速硬件由 Project Brainwave 提供支持。這項服務讓開發人員和數據科學家能夠在 Azure 和云邊緣跨各類實時應用程序運行實時模型,包括制造業、零售業和醫療保健領域的實時模型。
微軟還將 Project Brainwave 應用于新的必應搜索功能,以加快搜索結果并呈現智能化答案。使用機器學習和閱讀理解,必應能快速提供智能化答案,以幫助用戶更快地找到他們想尋找的答案,而不是提供鏈接列表來讓用戶手動檢查答案。英特爾 FPGA 能讓必應將模型延遲時間縮短 10 倍以上,同時將模型尺寸增加 10 倍。
采用英特爾Movidius myria視覺處理單元,讓視覺智能取得領先優勢
挑戰:自動捕捉和策劃家人、朋友和寵物的動感照片,由邊緣設備自身完成視覺處理。
解決方案:Google Clips無線智能相機,采用英特爾Movidius Myriad 2 視覺處理單元 (VPU)。
英特爾Movidius 提供低功耗、高性能的 VPU,幫助谷歌實現了其 Google Clips 相機的構想。借助英特爾Movidius Myriad 2 VPU,可以直接在相機上實時運行高級機器學習算法。這讓 Google 能夠改善相機功能,降低功耗,并支持離線使用。
英特爾Movidius VPU 的目標應用包括嵌入式深度神經網絡、姿態估計、3D 深度感測和手勢/眼睛跟蹤,隨著“相機互聯網”的爆發式增長,它為創新的新應用提供了各項功能,同時通過讓邊緣設備本身保留這些人工智能應用,以達到對隱私和安全策略的遵守。上述設備以及未來的英特爾Movidius VPU 將繼續在視頻分析、機器人和增強現實等應用領域帶來價值。
采用英特爾Nervana神經網絡處理器的新一代訓練和推理
挑戰:利用全新構建的架構繞過當前的系統障礙,支持新一代突破性深度學習解決方案。
解決方案:英特爾Nervana 神經網絡處理器,2019 年上市。
隨著人工智能的發展,模型越來越復雜,對內存的需求也越來越大。支持深度學習的未來,意味著要克服阻礙我們前進的內存障礙。當前的解決方案無法利用所有可用的計算機,就像缺乏汽油的發動機一樣。正因為如此,數據科學家和研究人員越來越認識到,需要有專門為深度學習訓練和推理而設計的硅芯片。打破這種內存障礙推動我們使用采納英特爾Nervana神經網絡處理器的全新方法,該處理器是專門為支持深度學習而設計和構建的。
英特爾Nervana NNP 將內存放在第一位,它采用了大量高帶寬內存和 SRAM,更接近實際進行計算的位置。這意味著可以在芯片上存儲更多的模型參數,以顯著節省功耗并提升性能。它支持大多數深度學習基元,同時讓核心硬件組件盡可能高效,確保沒有任何額外項(例如圖形)會從深度學習應用中竊取內存。此外,英特爾Nervana NNP 的高速片內和片外互連支持大規模雙向數據傳輸,這樣可以在多個機箱之間連接多個處理器,以充當一個更大的高效芯片來容納更大的模型,以獲得更深入的洞察。
英特爾與 Lake Crest 軟件開發車輛 (SDV) 方面的主要客戶合作,進行 NNP 開發、測試和反饋。當我們準備在 2019 年發售我們的第一個商業產品時,以上都被納入進來。隨著人工智能領域的進一步發展,我迫不及待地想從這些突破性芯片中看到我們客戶的創新和見解。
簡化異構部署和加速人工智能創新的軟件
框架和庫對于推動人工智能的發展至關重要。離開軟件,硬件就沒有任何東西可結合以產生最大的影響。我們在英特爾的目標利用穩健的多架構方法,將所有人工智能都集成到一個軟件保護傘下。這就是為什么像我們的開源 nGraph 編譯器這樣的計劃如此重要的緣故。您的時間不應該花在重新發明工具上。
在英特爾,我們認為我們有責任優化軟件和提供工具,這些工具可以讓我們的硬件發揮最佳性能,并簡化模型和現實之間的流程。利用我們的開源性能庫,從深度學習的直接優化中獲得更多好處;探索我們的開源深度學習編譯器 nGraph,它能夠跨多個框架和架構運行訓練和推理;使用 OpenVINO 快速優化預訓練模型,并將視頻神經網絡部署到各種硬件上;并且利用 BigDL 來駕馭大量數據,BigDL 是我們針對 Apache Spark 和 Hadoop 群集的分布式深度學習庫。
提供針對 Data Era 優化的客戶解決方案
英特爾正在幫助客戶更好地處理每天生成的大量數據并從中獲得價值。我們致力于提供全面的硬件和工具組合,以實現任何人工智能愿景。
現實世界中人工智能的復雜性要求將正確的硬件和軟件結合起來,以便讓應用能夠得以實現。英特爾在一個內聚的、多功能的、眾所周知的技術生態系統中提供這些工具。