AIGC雖然已經取得了令人矚目的成就,但是仍然面臨著一些挑戰。比如在技術層面,需要不斷提升模型的性能和能力,以適應更復雜、更多樣、更高質量等特點的內容生成需求。在數據層面,還需要不斷地獲取和利用更多、更好、更新等特點的數據資源,以支持模型的學習和生成。
AIGC發展中的存儲挑戰
由于生成式AI的主要應用場景涵蓋文本生成、語音生成、圖片生成、視頻生成、代碼生成、虛擬人生成等,在每種應用的背后是基于行業上下游對數據進行采集、標注、訓練、推理、歸檔,其特征是數據量大、多元數據類型復雜、服務協議多樣、性能要求苛刻、要求服務持續在線。所以生成式AI對數據存儲提出了諸多挑戰。
具體來說,在異構數據的融合方面,生成式AI訓練模型的數據呈現來源多、格式多的多源異構現狀,傳統存儲面向單一數據類型設計,需要以搬移數據的方式實現多協議訪問,存儲成為應用平臺的關鍵瓶頸。在模型訓練過程中,頻繁的從數據集取Token,每個Token一般4字節,實時高并發小IO性能需要極低的延遲;存儲模型Checkpoint時,為Checkpoint數據可快速寫入,需要高帶寬,這就帶來了持續的低延遲與高帶寬的要求。同時,越多的數據投喂結果越精準的工作原理,決定了大模型訓練存在深度學習網絡層數多、連接多、參數和數據集種類復雜、數據量大的特征,隨著模型參數和數據量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。
積極應對AIGC時代的存儲挑戰
浪潮信息作為最早布局AIGC大模型的企業之一,早在2021年9月就發布了中文語言大模型“源1.0”。今年年初,浪潮信息表示,公司在AIGC賽道已從底層計算能力、中間層大模型算法能力和上層行業應用方面進行布局和待續研發投入,未來將會持續發布AIGC的支撐產品。公司在人工智能服務器領域的市占率位居全球AI服務器市場第一,在中國市場份額已連續五年保持50%以上,相關AI產品對于內容生成的全流程計算能力需求都可滿足。
在近日舉辦的《浪潮信息存儲AIGC數據應用創新論壇》上,浪潮發布了生成式AI存儲解決方案,圍繞“新存儲之道”的理念,持續打造平臺型存儲產品,應對智能時代、AIGC時代的存儲挑戰。
生成式AI存儲解決方案四大特點
浪潮信息生成式AI存儲解決方案擁有極致融合、極致性能、極致節能,和熱溫冷冰四級全生命周期存儲管理四大特點。
首先在極致融合方面。浪潮信息首席架構師葉毓睿表示,AI的整個生命周期包含了四個階段,從數據整理,到AI的訓練,再到AI的推理,最后是數據的歸檔。不同的階段對數據的性能,延時方面的挑戰是不一樣的。所以浪潮信息存儲提出了“融合存儲”,也就是一個集群內支持多個存儲池,一個存儲池內支持文本、圖片、音頻、視頻等多種類型數據存儲,一份數據又可以被前端不同業務場景以文件、對象、大數據以及視頻的存儲方式進行并行訪問。用一套存儲實現多模態場景應用,應用間數據實現實時共享,同時節省了大量的存儲空間。
在性能方面,AIGC場景數據類型多樣化,文件大小不一且數量多,讀寫頻繁,對存儲系統的100GB級帶寬、100萬級IOPS需求成了常態。浪潮信息在軟件方面,通過數控分離架構減少東西向數據量的轉發,通過GDS、RMDA技術縮短I/O路徑,通過SPDK、緩存零拷貝技術減少I/O路徑上的數據拷貝,以及基于自研NVMe SSD開發的盤控協同技術,減少I/O訪問SSD盤的次數,使存儲性能得到進一步釋放。在硬件方面,優化IO路徑通道,均衡IO路徑,最大化發揮硬件性能,全閃單節點帶寬超過50GB/s,IOPS超過50萬;創新性的引入雙控全閃節點,帶寬超過100GB/s,IOPS超過100萬,真正使系統達到了TB級帶寬、千萬級IOPS、EB級帶寬。
在節能方面,浪潮信息最新發布的G7硬件平臺,存儲專用的液冷服務器涵蓋性能型和容量型,且均采用模塊化冷板組件設計模式。在系統方案層面,浪潮信息具有風液式,液液式等完善的端到端解決方案,能夠為用戶全方位打造液冷數據中心交鑰匙工程,并且完成了業界首次液冷整機柜批量交付,實現PUE<1.1。
在全生命周期管理方面,浪潮生成式AI存儲方案采用閃存、磁盤、磁帶、光盤四種介質提供熱溫冷冰四種存儲資源,且實現了資源的互通和數據全生命周期的管理。基于數據的熱度識別,自動釋放在線存儲空間,可以將海量數據自動歸檔到光盤庫,降低長期存儲成本;實現冷數據的分鐘級快速回調,滿足0~4級應用的存儲需求。四種介質、四類存儲節點,提供熱溫冷冰自動流轉,滿足各類應用的靈活配置需求,通過性能型、均衡型、容量型、高密容量型四種機型的按需靈活配置,進一步降低整體投入。
往往會帶來復雜的運維,浪潮分布式存儲產品線總經理姜樂果表示,浪潮信息存儲InView融合智能存儲管理平臺,在監控運維方面,支持一個界面同時管理存儲/交換機/主機/應用。在數據管理方面,支持集成數據的遷移、容災、備份、歸檔。在健康預測方面,可以智能預測容量、性能、故障、壽命。可以通過一套管理軟件,去管理所有的存儲系統。InView融合智能存儲管理平臺可以根據整個性能容量的趨勢,判斷是否需要升級、擴容,提前判斷盤的健康狀態。
為AI獨角獸公司提供高性能低延時的數據讀取保障
某AI獨角獸公司計劃發布5000億參數量的NLP語言類大模型,為了極致的提升計算效率,采用了計算網絡和存儲網絡分離的設計,計算網絡采用高速IB、存儲網絡選擇了RoCE,并對于存儲提出了明確要求:不小于3.5PB的高速存儲,性能要求帶寬300GB,IOPS 350萬以上。
客戶從專業性、開發成本、周期及運維等方面進行全面評估后,選擇浪潮信息AS13000分布式全閃存儲集群,支持高性能RocE組網和GPU直通存儲功能,為算力集群提供高性能低延時的數據讀取保障。同時隨著業務的上線,進行了兩次在線存儲擴容,具有非常好的靈活性和容量性能線性擴展能力。
搶占AIGC時代先機
Gartner預測,到2023年將有20%的內容被生成式AI所創建;到2025 年人工智能生成數據占比將達到10%。據分析師預測,到2032年,生成式人工智能市場規模將達到2,000億美元,占據人工智能支出總額的約20%,比目前的5%高出許多。
此次生成式AI存儲解決方案的發布,使得浪潮信息在AIGC方面擁有了更加領先的能力,將為企業提供更加高效、更加智能的技術支持,滿足未來客戶多樣化的需求。