數據量小
諸如谷歌和Facebook這樣的互聯網巨頭每天都定期收集和分析大量數據。他們使用這些數據來創建具有可接受性能的人工智能模型。在這種情況下,用于訓練模型的硬件與用于運行模型的硬件有著很大的區別。
另一方面,在硬件行業中,大數據的可用性受到更多限制,導致成熟的人工智能模型并不成熟。因此,組織需要收集更多數據并運行在線模型,其中在部署的硬件上進行訓練和推理,以不斷提高準確性。
為了解決這個問題,例如經過驗證的現場可編程門陣列(FPGA)和自適應片上系統(SoC)設備的自適應計算可以運行推理和訓練,以不斷地更新新捕獲的數據。傳統的人工智能訓練需要在云平臺或大型數據中心進行,并且需要花費數天甚至數周的時間才能完成。另一方面,實際數據主要在邊緣生成。在同一邊緣設備上運行人工智能推理和訓練,不僅可以降低總體擁有成本(TCO),而且可以減少延遲和安全隱患。
“不完美”輸入
以X射線圖像為例,采用人工智能模型概念驗證(PoC)來更精確檢測冠狀病毒變得越來越容易,但這些概念驗證(PoC)幾乎總是基于經過良好處理的輸入圖片和信息。在現實生活中,來自醫療設備、機器人和移動汽車的攝像頭和傳感器輸入會產生隨機失真,例如更暗圖像和角度不當的物體。這些輸入數據首先需要經過復雜的預處理來清理和重新格式化,然后才能輸入到人工智能模型中。預處理對于理解人工智能模型的輸出和計算正確的決策非常重要。
確實,某些芯片可能非常擅長人工智能推理加速,但是它們幾乎只是加速某一部分應用程序。以智能零售行業為例,預處理包括多流視頻解碼,然后采用常規的計算機視覺算法,對視頻進行調整大小、變形和格式化。預處理還包括對象跟蹤和數據庫查找。最終客戶不太在乎人工智能推理的運行速度,而是在乎是否能夠滿足整個應用程序管道的視頻流性能和/或實時響應能力。FPGA和自適應概念驗證(PoC)具有使用特定領域架構(DSA)加速這些預處理的良好記錄。另外,添加人工智能推理概念驗證(PoC)將使整個系統得以優化,以滿足端到端的產品需求。
不斷變化的“最新技術”模型
人工智能研究社區如今越來越活躍,世界各地的研究人員每天都在開發新的人工智能模型。這些模型提高了準確性,減少了計算需求,并處理新型的人工智能應用程序。這些快速的創新為現有的半導體硬件設備帶來了壓力,需要更新的架構來有效地支持現代算法。MLPerf等標準基準測試證明,在運行實際的人工智能工作負載時,最先進的CPU、GPU和人工智能 ASIC芯片的性能低于廠商宣稱的性能的30%。這種情況一直在推動對特定領域架構(DSA)新的需求,以跟上創新的步伐。
最近一些趨勢推動了對新的特定領域架構(DSA)的需求。深度卷積是一個新興的層,需要更大的內存帶寬和特殊的內存緩存才能有效。典型的人工智能芯片和GPU具有固定的L1/L2/L3緩存架構,并且內部內存帶寬有限,導致效率非常低。
研究人員正在不斷開發新的自定義層,而如今的芯片本身并不能支持這些新的自定義層。因此,它們需要在沒有加速的情況下在服務器的CPU上運行,這常常成為性能瓶頸。
稀疏神經網絡是另一種很有前途的優化方法,它通過修剪網絡邊緣、去除卷積中的細粒度矩陣值等方法對網絡進行大量修剪,有時修剪率高達99%。然而,要在硬件中高效運行,需要專門的稀疏架構,大多數芯片根本沒有用于這些操作的編碼器和解碼器。
二進制/三進制是極限的優化,可以將所有數學運算轉換為位運算。大多數人工智能芯片和GPU僅具有8位、16位或浮點計算單元,因此通過執行極低的精度將不會獲得任何性能或功效。FPGA和可適應的SoC非常完美,因為開發人員可以開發出完美的DSA,并為工作量非常大的現有設備進行重新編程。作為證明,最新的MLPerf包括Xilinx與Mipsology合作提交的文件,該文件使用ResNet-50標準基準測試實現了100%的硬件數據表性能。
沒有硬件專業知識?不要擔心
從歷史上看,FPGA和自適應SoC的最大挑戰是需要硬件專家來實施和部署DSA。好消息是,現在有一些工具(例如Vitis統一軟件平臺)支持C ++、Python和流行的人工智能框架(如TensorFlow和PyTorch),從而縮小了軟件和人工智能開發人員的差距。
除了在軟件抽象工具方面進行更多開發之外,諸如Vitis硬件加速庫之類的開源庫也極大地促進了開發人員社區的采用。在最近的設計競賽中,Xilinx公司吸引了1000多名開發人員參與,并發布了許多創新項目,從手勢控制的無人機到使用二值神經網絡的強化學習。重要的是,提交的大多數項目都是由以前沒有FPGA經驗的軟件和人工智能開發人員提供的。這證明FPGA行業正在采取正確的措施,使軟件和人工智能開發人員能夠解決現實世界中人工智能產品化的挑戰。
直到最近,對于軟件開發人員和人工智能科學家來說,釋放硬件適應性的潛力是無法實現的。以前需要特定的硬件專業知識,但是由于有了新的開源工具,軟件開發人員現在可以使用適應性強的硬件。借助這種新的編程簡便性,軟件開發人員和人工智能科學家將更易于使用FPGA和自適應SoC,從而使這些設備成為下一代應用程序的首選硬件解決方案。實際上,DSA將代表人工智能推理的未來,軟件開發人員和人工智能科學家將利用硬件的適應性為其下一代應用程序提供支持。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。