當前位置：大數據 → 業界動態 → 正文

企業構建生成式AI應用必須具備三大數據基座能力

責任編輯：shjiaz |來源：企業網D1Net 2024-05-15 09:11:39 原創文章企業網D1Net

數據是推動生成式AI技術創新的核心動力。在數據驅動的新時代，企業需要重新思考數據的作用和管理方式。在近日舉辦的亞馬遜云科技數據基座媒體溝通會上，亞馬遜云科技大中華區產品部總經理陳曉建深入探討了生成式AI時代，企業應如何構建強大的數據基座以實現技術革新和業務增長。

陳曉建強調，"企業需要的是懂業務、懂用戶的生成式AI應用，而打造這樣的應用必須從數據做起。" 亞馬遜云科技憑借領先的云計算技術，正在助力各行各業構建這樣的數據基座。

他詳細介紹了亞馬遜云科技助力各行業企業構建數據基座的三大核心能力。

能力一、利用現有數據提高模型微調或預訓練質量

一是優秀的數據處理能力，快速提高模型微調和預訓練質量。借助亞馬遜云科技高效的數據存儲、數據清洗和數據治理工具，企業可以快速提高模型的訓練質量。

生成式AI應用在數據存儲方面的需求體現在兩個方面：一是能夠承載海量數據，二是存儲性能必須快速響應計算資源。亞馬遜云科技Amazon S3和Amazon FSx for Lustre提供了高效的數據存儲解決方案。Amazon S3擁有超過200萬億個對象和平均每秒超過1億個請求的處理能力，支持廣泛的數據協議，不僅能夠輕松應對各種數據類型，還支持智能分層以降低訓練成本。專門構建的Amazon FSx for Lustre提供亞毫秒級延遲和高吞吐性能，能夠顯著加快模型優化的速度，據悉LG AI Research已用其加速模型訓練，開發了自己的基礎模型 EXAONE，在簡化基礎設施管理和提升GPU擴展效率的同時，將成本降低了35%。

在數據清洗方面，亞馬遜云科技的Amazon EMR Serverless和Amazon Glue為企業提供了高效解決方案，可助力企業輕松完成數據清理、去重和分詞操作，專注于生成式AI創新。Amazon EMR Serverless的無服務器架構能夠預置、配置和動態擴展計算和存儲資源，滿足不斷變化的需求，性能比開源方案快兩倍以上。Amazon Glue則可快速集成數據，連接不同數據源，提供可視化創作體驗和無服務器執行引擎，助力開發者快速完成微調或預訓練模型的數據準備工作。

數據治理方面，Amazon DataZone讓企業能夠跨組織邊界大規模地發現、共享和管理數據，不但能夠為多源多模態數據進行有效編目和治理，而且還提供簡單易用的統一數據管理平臺和工具，從而為用戶解鎖所有數據的潛能。

能力二、將現有數據快速結合模型產生獨特價值

生成式AI基礎模型自身的局限性在于缺乏垂直行業的專業知識，且缺乏時效性，將數據與模型結合，有效利用檢索增強生成(RAG)技術是破解上述問題的關鍵。RAG技術的關鍵是向量嵌入(vector embeddings)，旨在通過一系列操作，將元素數據中的內容關聯問題簡化為token元素間的距離計算問題。向量存儲是RAG場景的核心組件，理想的向量存儲解決方案是將向量搜索的數據與原始數據進行統一存儲，以確保無縫集成、避免添加新的組件、降低額外成本，并且無需數據遷移，將向量檢索和現有數據關聯時也會有更快的體驗。

亞馬遜云科技已在八種數據存儲中添加了向量搜索功能，為客戶在構建生成式AI應用程序時提供更大的靈活性。圖數據庫擅長處理復雜關聯，在社交網絡、推薦系統、欺詐檢測和知識圖譜等領域已被廣泛應用。知識圖譜和基礎模型各有所長，兩者結合可以獲得更精確專業的信息以減少幻覺，也可以對不準確的回答進行溯源和糾偏。亞馬遜云科技專門構建了圖數據庫Amazon Neptune，并配備了分析數據庫引擎，使圖數據分析速度提升80倍，通過內置算法可在數秒內分析數百億個連接。此外，將圖和向量數據一直存儲，還能實現更快的向量搜索。

能力三、有效處理新數據，助力生成式AI應用快速迭代

對生成式AI應用而言，基礎模型的頻繁調用導致了響應的延遲，與之前數據庫調用的毫秒級或微秒級響應時間時相比，基礎模型的調用時長通常是秒級。此外，每次調用基礎模型也會增加成本。許多企業反映，終端用戶的大部分問題是類似甚至重復的。因此可以通過將之前問答生成的新數據存入緩存，當類似問題時可以直接通過緩存給出回答，以提高響應速度，，不調用模型也可以節約重復調用帶來的成本。

作為一個支持向量搜索的高速緩存，Amazon Memory DB內存數據庫能夠存儲數百萬個向量，只需要幾毫秒的響應時間，能夠以99%的召回率實現每秒百萬次的查詢性能。這顯著減少了模型的調用頻率和成本，非常適用于欺詐檢測和實時聊天機器人等實時場景。無服務器具備諸多優勢：如減少繁重復雜的運維工作，讓企業集中精力于AI代碼創新，閑時收縮資源以實現高性價比，還能夠在需要時快速擴展消除性能瓶頸。亞馬遜云科技通過提供無服務器數據庫服務和Amazon OpenSearch Serverless用于向量搜索，省去了企業配置和運維OpenSearch的復雜性(如安全隔離、故障處理等)，減少運維成本，消除性能瓶頸，使企業能夠專注于生成式AI業務創新，以快速占領市場。

據悉，Amazon Music通過分析用戶和歌曲特征并將其轉換為向量，提高了推薦的精準度。利用Amazon OpenSearch，Amazon Music已對超過1億首歌曲進行了向量編碼和索引，為全球用戶提供實時音樂推薦。如今，Amazon Music在Amazon OpenSearch中管理著10.5億個向量，能夠處理每秒高達7,100次的查詢峰值，有效支撐其推薦系統。

小結

陳曉建總結，生成式AI不僅需要強大的基礎模型，還必須具備出色的數據能力。

首先，數據存儲、數據清洗和數據治理等底層能力是構建堅實基礎的關鍵。

其次，將數據與模型有效結合至關重要，通過RAG技術、微調、持續預訓練等方法，可以整合企業的私有數據和基礎模型。

最后，在生成式AI的應用中，借助Amazon MemoryDB和無服務器數據庫服務能夠減輕工作負擔，降低復雜性，加速業務創新。

通過以上三大核心數據能力，亞馬遜云科技不僅在全球范圍內支持企業構建強健的數據基座，而且確保在保護用戶業務和數據安全的前提下，加速企業業務的增長和創新。

他強調：生成式AI是一個飛輪結構的循環過程，需要利用多種有效的云服務，打造堅實的數據基礎，才能實現正向循環。通過與基礎模型結合，企業可以構建獨特的生成式AI應用，滿足客戶需求。新數據的生成將進一步提高模型的準確性，助力微調和持續預訓練，使模型更具行業智慧，為用戶提供更好的體驗。最終，數據和模型的協同將推動企業持續成功，實現從數據到創新的正向循環。

關鍵字：生成式AI 數據云計算