在芯片、元件和系統之間移動以及處理優先處理順序不明確的情況下,設計團隊只能在合并和共享存儲之間取得平衡以降低成本,或增加更多不同類型的存儲來提升效能、降低功耗。
但這個問題不僅僅是內存供應商面臨的挑戰;其他AI利益相關者也在發揮作用,解決方案最關鍵的一部分是內存互聯,即內存離計算越來越近。在人工智能硬件峰會內存互聯的挑戰和解決方案圓桌討論上Rambus研究員Steve Woo表示:“我們都在人工智能的不同方面工作。”
從目前來看,內建SRAM和DRAM存儲仍是當前主推技術。DRAM密度高、使用電容儲存結構相對簡單,又具有低延遲、高效能和接近無限次存取的耐用度,功耗也比較低。SRAM速度非常快,但較為昂貴且密度有限。這些不同的需求會影響存儲的類型、數量以及內建或外接存儲的選擇。
Marvell ASIC業務部門的CTO Igor Arsovski在SRAM方面有著豐富的經驗,他表示,用啤酒來比喻內存互連并不壞。 “SRAM就好比一瓶啤酒。它很容易使用,使用它的能耗很低,它只提供你所需的。“但如果內存不夠,你就會走得更遠,而且需要消耗更多的能量,就像需要走得更遠才能買到啤酒一樣。”
HBM vs LPDDR
外接存儲的競賽,基本上以DRAM-GDDR和HBM為主。從工程和制造角度來看,GDDR比較像DDR和LPDDR等其他類型的DRAM,可以放在一個標準的印刷電路板上并使用類似的制程。
HBM是比較新的技術,牽涉到堆疊和矽中介層,每個HBM堆疊都有上千個連接,因此需要高密度的互連,這遠遠超過PCB的處理能力。HBM追求最高效能和優質的電源效率,但成本更高,需要更多的工程時間和技術。GDDR的互連沒這么多,但會影響訊號的完整性。
Arsovski表示,在內存方面,高帶寬內存(HBM) 正在被越來越多的人工智能采用。
“它會花費你60倍多的能量來訪問內存。那里的容量要大得多,但訪問它的帶寬也顯著減少了。啤酒的類比可以擴展到LPDDR(DDR SDRAM的一種)等技術,它超過了SRAM。“LPDDR功率要高得多,但你可以裝更多的容量。”“這就像沿路走到你最喜歡的酒吧。”
Arsovski預計,下一代加速器的發展方向是將這些小桶放在加速器的正上方,通過計算將內存壓縮到更近的位置。MLCommons是一個提供機器學習標準和推理基準的組織,其成員包括學術界和工業界。MLCommons的執行董事David Kanter介紹:“這讓我們對不同的工作量有了一個非常廣泛的了解。我們開始改變這個組織的一件事是,讓它專注于一點,那就是建立顧問團,引入特定應用領域的一些深度專業知識。” MLCommons還將為培訓人工智能模型的任何人編制大型公共數據集,并計劃擴大服務范圍,吸引其他專家加入。
當談到內存時,Kanter介紹,整個系統上下文很重要。“你必須思考你想做什么與系統。”芯片、封裝和電路板都是必須考慮的元素。對于存儲被放置和連接的地方,有很多不同的角落,你可以優化的陣列結構,單元類型,以及距離。”
Kanter:“了解哪里需要帶寬和非揮發性也是關鍵的考慮,這會引導你做出正確的選擇。”
對于那些傳統上不參與整個內存系統構建過程的公司來說,這些考慮相當重要。谷歌軟件工程師Sameer Kumar長時間研究編譯器和可伸縮系統,他認為其中網絡和內存帶寬對于不同的機器學習模型至關重要,包括大規模批量學習的能力。“人工智能訓練涉及到大量的記憶優化,這是編譯器獲得高效率最關鍵的一步,這意味著記憶需要更智能。“
由于數據移動開始主導人工智能應用的某些階段,由此看來內存互聯變得越來越重要。Woo:“在性能和功效方面,這是一個日益嚴重的問題。提高數據傳輸速率有些難,因為每個人都希望保持數據傳輸速度翻倍和能源效率翻倍。“我們所依賴的許多技術對我們來說已經不存在了,或者正在放慢速度。我們有機會來思考新的架構和創新我們移動數據的方式。”
Woo:這不僅包括存儲設備本身的創新,還包括封裝和新技術的創新,如堆疊,同時還要確保mind data安全,美國內存技術公司Rambus認為這一點越來越受到關注。
Rambus已經在關注3D堆疊,但是如果帶寬沒有隨著堆疊容量的增加而增加,可用性就會受到限制。
Arsovski表示,Marvell正花大量時間與客戶一起構建人工智能系統,為他們提供每個芯片邊緣可移動的帶寬以及可訪問內存的帶寬信息。“目前我們所看到的是,客戶需要更多的內存帶寬和I/O帶寬。”“如果你看看封裝層面是如何大規模互連的,就會發現有一個巨大的不匹配。我們現在已經遇到了瓶頸,為此我們在不斷推進高端芯片間的連接。”
從內存的角度來看,對于那些無法裝在芯片上的人工智能模型來說,下一步是HBM或GDDR,但也有很多人傾向3D堆疊,因為你只能在芯片上移動這么多帶寬。“客戶想要越來越多的I/O帶寬,但我們能在邊緣端能移動多少?”
Kanter表示,即使在機器學習的世界里,也存在著“巨大的多樣性”,這導致了生態系統的限制和變化。對于常規DRAM來說,對一個難以置信的大數據結構進行隨機查找并不適合單個節點,這意味著如果你想在內存中保存它,就需要構建一個大集群系統。“這與傳統的視覺導向模式有著非常不同的特點和特性。在內存方面記住這種多樣性是非常重要的。”
當需要將大量內存和計算整合在一起時,互聯就出現了,互聯互通對那些巨頭公司來說尤其重要。“如果你只想在一個小網絡中訓練一個GPU,那么關鍵的維度可能是內存帶寬。”
Kumar表示,更多的內存帶寬可以實現不同類型的優化,但如果一個模型特別受內存限制,那么它可能會帶來更多的計算。“如果你有更多可用的內存吞吐量,或者甚至更多可用的互連吞吐量,它可能會使模型設計更加靈活,啟用新功能,并構建不同類型的模型。”
Woo:Rambus對 3D疊加很感興趣,但挑戰是,當你上升到更高的層次時,保持不斷增加的帶寬來在堆棧中上下移動就變得更加困難。“雖然你最終增加了堆棧的容量,但如果你沒有相應的帶寬增長,那么這個解決方案能有多大用處。”
他介紹,“The Holy Grail”是一種既能保持填充頻率的同時又能提高堆疊形式因數功效的方法,它使帶寬、容量和堆疊的比率相對恒定。
Kumar和Arsovski都認為需要建立一個平衡的、可伸縮的系統和設計良好的軟件堆棧。Arsovski:“我們描述的是一種類似人類大腦的結構,它的伸縮性很好。”它必須是低能耗的,同時具備大量的連接能力,目前,我們最接近它的方式是通過3D疊加,但仍存在功耗、封裝和機械方面的挑戰。“我們需要找出一個平行的系統,在每一層都使用非常低的功率,這樣你就不用擔心數千瓦的功率需要冷卻了。”
功耗問題依然難以攻克
功耗也是存儲的關鍵問題,不同存儲類型和配置也會影響功耗。例如在7nm制程的存儲上移動資料因導線的RC延遲,需要更高的功率,并可能產生熱能,破壞訊號的完整性。
存儲對AI很重要,AI又是所有新技術的主角。但不只有AI芯片,還有芯片內部的AI應用,都會影響存儲的使用方式。如要實現超快的速度和最低功耗,最好的辦法就是把所有元件放在同一個芯片上,但有時會受到空間的限制。
這也說明了,為什么資料中心和訓練應用AI芯片的體積比許多部署在終端設備執行推論應用的其他類型芯片更大。另一種方法則是將部分存儲移到芯片外,并透過設計提高傳輸量及縮短與存儲的距離,或是限制外接存儲的資料流。
Mentor IP部門總監Farzad Zarrinfar表示,功率、效能和面積(PPA)都很重要,但主要還是和應用有關。以攜帶型的應用為例,功率非常重要,而功率也分為動態和靜態兩部分,如果需要大量運算,那么動態功率就非常重要;如果是穿戴式設計,則更重視靜態/漏電功率。電動車在意電池的續航力,因此功耗也是關鍵因素。
現在是時候開始研究人工智能系統的下一個基礎模塊了。“我們一直在研究晶體管,到目前為止,它們做得很好。但我們幾乎需要從頭開始重新思考這個設備。”
盡管有大量革命性的技術和創新架構,存儲仍是所有設計的核心。如何決定現有存儲的優先順序、共享、位置以及用途,獲得優質系統效能依舊是件知易行難的事。