當前位置：大數據 → 業界動態 → 正文

2024年大數據展望：數據滿足GenAI

責任編輯：cres 作者：Tony Bare |來源：企業網D1Net 2024-01-05 16:07:56 原創文章企業網D1Net

去年初，誰能想到GenAI和ChatGPT會搶占先機？

一年前，我們預測數據、分析和AI提供商最終會抽出時間來簡化和重新思考現代數據堆棧，這是一個我們已經接近和熱愛了一段時間的話題。作為分布式企業中數據治理的解決方案，也有很多關于數據網格的討論和擔憂，我們還預測了數據倉庫的崛起。

那么，這一切在2024年將如何發展呢？在未來一年里，我們將看到GenAI在向量索引、數據發現、治理和數據庫設計方面發揮重要作用，這并不令人驚訝，但讓我們首先回顧一下AI在過去一年里是如何影響我們的預測的。

那么，2023年的數據發生了什么？

事實證明，去年的預測其中許多都成真了。

我們看到了通過擴展云數據倉庫服務來集成SAP SE、微軟、甲骨文等公司的交易、數據轉換管道和可視化，在簡化和扁平化現代數據堆棧方面取得了真正的進展，此外，Amazon Web Services Inc.還大幅擴展了其zero-ETL (提取/轉換/加載)功能，將操作數據庫與RedShift和OpenSearch捆綁在一起，克服了其數據庫產品組合中的一個關鍵弱點。

正如我們所預期的那樣，現實檢查打擊了數據網格，因為企業正在努力應對使聯合數據治理成為現實的復雜性，現在有了一種將數據視為產品的新意識，但數據產品的定義仍在旁觀者的眼中。

至于我們稱之為“the revenge of the SQL nerds”的數據倉庫，Apache Iceberg成為了連接數據倉庫和數據湖的事實上的標準開放表格格式，就連Databricks Inc.也打開了大門。

在第一季度，幾乎沒有提到GenAI，但奇怪的是，4月1日左右，科技界發生了180度大轉彎，正如我們在今年夏天發布的Gen AI Trip報告中所指出的那樣，自去年11月發布以來，OpenAI的ChatGPT在短短幾個月內就獲得了1億用戶，這比Facebook、Instagram和Twitter快得多。

突然之間，每個數據、分析和AI解決方案提供商都必須有一個GenAI故事，矢量數據支持成為操作數據庫的一個復選框功能，英語(以及越來越多的其他流行語言)正迅速成為世界上最受歡迎的應用程序編程接口和軟件開發工具包，盡管存在知識產權問題，但人們對Gen AI自動生成代碼的潛力非常感興趣。

當然，生成性模型不僅僅與語言有關，他們還可以將像素組裝成圖片，為所需功能吐出樣板代碼，拼湊音符形成歌曲，并利用分子結構、地理空間和幾乎任何其他形式的數據來尋找概率聯系，但大多數人的注意力都集中在大型語言模型上。

在幕后，硬件變得和Jensen Huang的商標黑色皮革轟炸機夾克一樣酷，這位NVIDIA的CEO幾乎無處不在地出現在我們舉辦的幾乎每一場云會議上，如果Huang沒有在舞臺上露面，那么他的主旨演講就不完整。

盡管每個人都想成為NVIDIA的好朋友，但爭奪第二來源的競賽已經開始，圖形處理單元的稀缺已經到了企業只能通過長期、一到三年的硅片承諾才能獲得訪問的地步，以備不時之需，平均利用率可能只有20%左右。在這里，我們可以看到為AI工作帶來了一個未使用的GPU周期的售后市場。

這里是數據的角度：每一個AI模型的成功——生成性或經典ML——取決于模型的相關性、性能和準確性，當然還有數據的相關性和質量。在新的生成世界中，“垃圾輸入，垃圾輸出”仍然一如既往地切合實際。

為2024年做好準備

十年前，數據是風險投資的中心。瀏覽一下2010年代Strata舊大數據會議的會議日程，我們的議程上擠滿了提供大量輔助工具和服務的初創公司，這些工具和服務以Hadoop、流媒體、目錄和數據爭論為中心。

可以說，那里有相當高的死亡率，這是達爾文主義的秩序。快進到今天，AI已經取代數據成為風險投資的熱點。根據經濟合作與發展公司的數據，在過去十年中，AI一直是同期風險融資增長最快的行業。經合公司的一個相關有趣事實是，在此期間，實際的AI風險投資增長了28倍。

誠然，過去幾年的情況更加低迷，但如果OECD的圖表更新，我們預計風險投資比例和AI倍數的增長將會繼續。

根據PitchBook的數據，2023年第三季度，整體風險融資降至2017年以來的最低水平，早期融資與五年低點同步，但富人們正在變得越來越富有，微軟100億美元的支持下，開放AI顯然是一個典型，然后是Anthropic PBC，它得到了來自AWS和谷歌有限責任公司的約50億美元的支持，最近又獲得了7.5億美元的融資，其估值達到了相當高的150億美元，相當于收入的75倍。

問題不是這個泡沫是否會破滅，而是何時破滅。由于2024年利率可能會下降，這一清算時刻不太可能立即到來，這項技術太新了，客戶不會失望。

但請稍等，OpenAI、Anthropic、Cohere Inc.或其他公司，2024年可能會被標記為寒武紀適合用途的、更緊湊的基礎模型或FM的開始。我們預計，這一類別的融資將上升到較長尾的公司。

這些適合用途的FM的增長將受到對運營GPT等大型模型的巨額支出的強烈反對。有了學習曲線，數據科學家將在優化生成模型的合適大小的訓練數據庫方面變得更有先見之明。

正如我們幾個月前指出的那樣，GenAI可能是市場上閃閃發光的新事物，但在幕后，“經典”ML模型將繼續發揮重要作用。當塵埃落定時，為任務的正確部分使用正確的模型，將會有更多的平衡。

在數據庫方面，我們看到了一種安全的逃亡。在一個仍有數百個引擎的環境中，人們對新的數據庫初創公司幾乎沒有興趣，但顯示最受歡迎的10個引擎基本保持穩定。

Couchbase Inc.是一個很好的例子，它從失去的十年中恢復過來，勉強實現了可觀的增長，但它的市場份額永遠不會達到與MongoDB持平的水平，后者曾是它的競爭對手。除了這一群體，我們認為2010年代的前景渺茫——蟑螂實驗室公司、Yuabyte公司或Aerospike Inc.等老牌初創公司取代了現有的秩序。

那么，我們應該在2024年的數據庫環境中尋找什么呢？一個廣泛的暗示是，其中很大一部分將與支持和內部利用AI有關。

向量索引和BI整合

向量指數不會成為頭條新聞，也不會是GenAI-商業智能集成，但這將是2024年最重大的數據庫創新。數據庫供應商今天將擴展他們的通用向量索引產品，提供更多的優化選擇，他們將加入編排，允許使用表格、BI風格的結果豐富Gen AI查詢。

回到基本問題，那么GenAI與數據庫有什么關系呢？對于運行例程查詢，持久化數據比按需填充數據更有效。對于生成性模型，能夠訪問新的或更相關的數據是使它們在模型訓練所依據的數據語料庫之外保持最新的關鍵，這就是檢索增強生成(RAG)和向量的用武之地。

毫不奇怪，數據庫部門去年的回應是增加了存儲向量嵌入的能力。對于現有的操作數據庫，這幾乎是不費吹灰之力的，因為向量只是另一種要添加到混合中的數據類型。AWS、DataSTax Inc.、微軟、MongoDB Inc.、Snowflake Inc.和各種PostgreSQL變種也加入了這一潮流。

我們還看到了專門的病媒數據庫的出現，例如來自松果系統公司和Zillis公司及其Milvus的數據庫。我們預計矢量數據庫環境將以與圖形相同的方式發展：出現了幾個專門的數據庫，用于服務于涉及極端規模和復雜性的用例，其中大部分操作來自我們已經使用的數據庫，這些數據庫正在或正在將矢量數據支持添加為一項功能。

隨著大多數操作數據庫添加向量存儲，我們將索引視為下一個前沿，這也是GenAI支持方面的大部分差異化之處。大多數添加向量存儲的數據庫都是從基本的索引開始的，該索引沒有針對特定的服務級別協議進行優化，這種情況即將改變。

原因如下：向量索引不是平等創建的。向量索引搜索標識相似項目的“最近鄰居”(也稱為“相似性搜索”)，但有不同的方法來優化相似性搜索，這反過來又會根據它們支持的索引類型來決定使用什么數據庫。

向量索引的變量包括查找率，它衡量為特定查詢檢索到的相關數據實體或項的比例。從本質上說，有兩種選擇，一種是低召回率，一種是快速而骯臟的方法，運行起來更經濟，提供的是大體情況，另一種是高召回率，它更全面，對結果更嚴格。

因此，用于生成營銷內容的生成性應用程序可能會使用低召回率向量索引，而與合規相關的用例將需要更全面、更昂貴、更高召回率的搜索。向量索引中還有針對速度(性能)或比例等參數進行優化的其他變體。

例如，Milvus提供了近12種不同的向量索引類型，它們針對數據集的大小、速度、召回率、內存占用和維度(查詢復雜性的衡量標準)進行了優化，而Oracle提供了內存中索引的選擇，以實現更緊湊的搜索，以及一種旨在跨多個分區并行擴展的索引。

硬幣的另一面是能夠將向量查詢的結果與表格數據混合和匹配。從字面上看，這將是GenAI數據庫創新的明顯一面，例如，一家為商業客戶提供市場情報的提供商，它為關鍵字搜索提供了一種自然語言替代方案，將矢量商店中關于客戶情緒的匯總數據與來自文檔數據庫(如MongoDB)的異類數據關聯起來。

這里有另一個用例：制造商使用GenAI對產品質量問題進行根本原因分析，可以與跟蹤保修和服務成本的關系數據庫中的表格數據相關聯。我們希望在能夠協調這種復合查詢的數據庫平臺中看到更好的結締公司。

數據和AI治理開始走到一起

今天，數據治理和AI治理是獨立的工具鏈，由不同的從業者運行：一端是數據庫管理員和數據管家，另一端是AI開發人員和數據科學家，這個問題并不局限于GenAI，而是適用于所有類型的AI模型，而且早該融合了。我們預計在未來一年將開始看到通過跟蹤和關聯譜系將數據和AI治理結合在一起的運動。

這是一個棘手的挑戰，僅以數據治理為例：在大多數公司中，它很難說是鐵板一塊。通常，不同的團隊和參與者在數據質量、安全和隱私、合規性和風險管理以及整體生命周期管理方面處于領先地位，這些工作往往是重疊的，因為大多數公司都有多個工具，如數據目錄，來執行相同的任務。

數據治理中的脫節引發了關于數據網格的討論，這是關于在數據產品的整個生命周期中協調數據所有權與責任的問題，這在2022年的數據討論中占據了主導地位。

與此同時，隨著ML的采用從孤立的概念證明擴展到常規地嵌入預測性和規范性分析，AI治理迅速出現，它通常側重于跟蹤模型譜系、審計、風險管理、合規性，在某些情況下，還關注可解釋性。GenAI加劇了這一挑戰，需要更多地關注數據源的引用，同時引入新的問題，如檢測(并允許刪除)有毒或誹謗性語言，幻覺(當然)，以及版權和知識產權問題。

當然，挑戰在于，在AI領域，模型和數據交織在一起，模型的性能、安全性和合規性與用于生成答案的訓練和生產數據集直接相關，這就是為什么，當檢測模型偏差時，問題可能很容易出在數據上，或者出在邏輯或算法上，或者兩者兼而有之。

例如，有充分的文件證明，面部識別系統的可靠性很容易受到不同種族和國籍的過度或不足抽樣的影響。當不同的人口普查區域或人口隊列以不同的比率進行抽樣時，對產品或社會服務的需求分析也是如此。

然后是漂移的問題，數據和模型可以獨立漂移，也可以相互依賴，數據來源可能會改變，數據揭示的趨勢也可能要求模型反過來調整其算法。你不會想用今天的數據來解決昨天的問題，反之亦然。

在接下來的一年里，我們預計AI治理工具將開始關注數據譜系，它是審計跟蹤可以開始的邏輯點，評估哪個模型的哪個版本針對什么數據的哪個版本進行了培訓，以及誰是擁有和擔保這些更改的責任方。

從那時起，以后可能會出現更復雜的能力，跟蹤和關聯數據質量、準確性、合規性等。隨著許多ML模型在數據庫中執行，我們看到了數據目錄合并模型資產的巨大機會，并由此成為應用治理的點。

我們很感興趣地看到，IBM完成了對Manta Software Inc.的收購，以實現數據沿襲，同時也揭開了AI治理領域Watsonx.治理的面紗。雖然IBM的時機是巧合的，但我們希望它最終會利用這個偶然的機會。

GenAI豐富了數據發現和治理

不足為奇的是，Gen AI最受歡迎的用例一直圍繞著從查詢到編碼的各種任務的自然或對話語言界面。我們預計，數據發現和治理將是未來一年GenAI增強的主要目標。

讓我們從自然語言或會話查詢開始，一些很好的早期例子包括QuickSight中的ThoughtSpot Sage、Databricks Lakehouse IQ和Amazon Q，它們繼承了Tableau Ask Data等面向關鍵字的前輩的做法。我們預計Tableaus和Qlik將在2024年做出回應。

我們還預計，自然語言將圍繞數據生命周期中涉及的阻塞和處理發揮各種功能，從編目數據到發現、管理、管理和保護數據。Atlan是一家專注于DataOps的數據目錄提供商，它提供了我們預計今年會看到更多內容的一瞥。Atlan從一個常見的自然語言搜索功能開始，該功能與越來越多的BI工具提供的自然語言查詢功能非常相似。

但它進一步改進了數據庫元數據的自動發現(例如，數據資產的表名和列名、模式規范和譜系)，以生成簡單英語的文檔。作為自然語言SQL代碼生成的鏡像，Atlan可以將現有的SQL轉換為純語言描述。

這只是冰山一角，對這些自動文檔功能的邏輯擴展將從業務術語表中提取數據，并將它們與表元數據相關聯，反之亦然。GenAI的自動匯總能力可以指向書面政策、規則和事件，以記錄對風險管理護欄的遵守情況。讀取表元數據和SQL轉換可以豐富或生成參考數據，以協調數據庫和應用程序之間的數據，并找出差距或遺漏，這些只是我們預計今年會出現的幾種可能性。

GenAI與數據庫設計

追隨自動代碼生成或指導的腳步，GenAI還可以幫助數據庫設計人員簡化數據庫的開發和部署，當然，這將繼續需要人類參與——我們不應該讓一個聰明的機器人在沒有干預的情況下設計數據庫，但語言模型掃描、匯總和突出顯示數據語料庫的能力，可能使其成為數據庫開發的主要生產力工具。

誠然，AI已經被用于數據庫操作的許多方面，從查詢優化到索引創建、自動調優、配置、修補等，Oracle自治數據庫是完全自動駕駛自動化的典范。盡管在一些運營領域，ML已經被用來優化或提供可以由GenAI補充的建議，但我們相信，最大的回報將是數據庫處理數據內容的方面，這也是我們預計2024年下一波AI創新將發生的地方。正如前面提到的，我們已經略微了解了自然語言查詢和SQL代碼生成。

在短期內，我們預計將看到GenAI數據庫創新專注于數據的結構化。利用轉換器模型用于匯總和提取文檔亮點的相同類型的功能，我們可以看到，通過輸出E-R圖、模式生成和基于實際數據的特征生成合成數據，可以將其應用于掃描用于數據建模的應用程序的需求文檔。利用代碼生成能力和檢測隱式數據結構的能力，我們可以看到GenAI被應用于創建數據轉換管道。

從長遠來看，我們可以看到GenAI的出現，以補充已經應用于ML的任務，例如創建索引、錯誤和離群值檢測以及性能調優，但我們不認為這些功能是2024年數據庫提供商的首要任務，因為那里的好處將是漸進的，而不是變革性的。對于任何閃亮的新事物，讓我們不要得意忘形。

企業網D1net(hfnxjk.com)：

國內主流的to B IT門戶，同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。

關鍵字：大數據