未來一年,大數據將重回人們的視野。數據正在變得比“新石油”更重要,它正在成為新的貨幣。大約十年前,隨著分析成為商業成功的關鍵路徑,大數據開始受到廣泛關注,但后來由于大數據無處不在,這一術語也變得不再重要。
在過去兩年中,在GenAI引發的所有興奮中,數據——或對數據質量和可信度的關注——似乎都被GenAI所帶來的華麗圖示和極具洞察力的見解所掩蓋。現在,隨著GenAI對商業至關重要,人們意識到他們的AI基礎是建立在一堆松散的沙子上的。
當AI出現“幻覺”時,并不是因為它的“心思”在游走,因為它根本沒有心思可言,它只是根據概率運行,抓取下一個可用的相關數據來完成敘述。
現在,甚至有人擔心我們開始缺乏足夠的數據來喂養這些機器。“世界上大多數公開可用的數據——無論是合法獲得的還是非法獲得的——都已經被耗盡了。”Constellation Research的高級分析師Andy Thurai表示,這種瘋狂何時才能結束,對吧?
因此,沒錯,2025年數據將再次成為焦點,因為我們需要大量的數據,而且這些數據必須非常好、非常及時。
“在2010年代,所謂的大數據時代,數據風靡一時,”dbInsight的負責人Tony Baer表示,“隨著云計算規模使大數據成為常態,我們開始理所當然地獲取和管理大量數據,然后去年GenAI橫空出世,風險基金開始瘋狂追逐AI。”
Qlik的一份報告指出,大數據和AI“具有協同效應”。“大數據分析利用AI進行更好的數據分析。反過來,AI需要大規模的數據來學習和改進決策過程。”
大數據將決定AI的成敗。“雖然AI一直依賴于用于訓練和測試的數據,但越來越明顯的是,數據才是AI獲勝的關鍵因素。”Thurai表示。
Presidio對1000名IT高管的調查顯示,至少有86%的高管報告了與數據相關的AI障礙,如難以獲得有意義的見解和實時數據訪問問題,其中一半人認為他們在完全準備好之前就匆匆投入了GenAI。
風險投資界仍然對AI充滿熱情,“但你猜怎么著?這需要高質量、經過驗證的數據,而且不能侵犯隱私或數據主權。”Baer表示。
因此,人們越來越強調檢索增強生成(RAG)解決方案,這是標準數據庫和大型語言模型之間的橋梁,Baer說。
Baer提到了AI Alliance(一個由領先科技公司組成的聯盟)的最新公告,該公告強調了建立可信數據基礎的重要性。
AI Alliance在宣布其開放可信數據倡議的一份聲明中表示:“數據是AI模型和系統最重要的組成部分,然而如今AI所用的數據往往來源不明、授權不清,并且在語言、模態和專家領域的質量和多樣性方面存在巨大差距。”
該倡議的目標是發布“大規模開放、許可寬松的數據集,這些數據集在所有對AI至關重要的領域和模態中都具有清晰的來源和血統”。該倡議匯集了來自Pleias、BrightQuery、Common Crawl、ServiceNow、Hugging Face、IBM、Allen Institute for AI、Cornell、Aitomatic、Tokyo Electron和EPF等20多個組織的150多名參與者。
該倡議的成員“正致力于開發更好的要求、流程和工具來管理數據集,使其更加透明、可信、準確,并得到廣泛應用”。
除了完善開放可信數據的規范外,聯盟成員還計劃構建可信數據處理的工具和發布管道,包括端到端的血統跟蹤功能。聯盟還打算“顯著擴展數據目錄,旨在包含世界上大多數語言的數據、高質量多模態數據的大型存儲庫(包括圖像、音頻和視頻),以及時間序列和科學模態”。
隨著全球數據變得越來越寶貴,Thurai預見領先的大型語言模型之間的差異將越來越小。因此,企業將轉向更狹窄或更專注的模型,這些模型利用特定行業的數據。例如,針對金融行業的BloombergGPT、Google專為醫療保健行業開發的Med-PaLM2,以及基于大量法律案件、法規和監管來源訓練的Paxton AI法律語言模型。
Thurai表示,BloombergGPT“是一個擁有500億個參數的LLM(大型語言模型),專門在廣泛的金融數據上進行訓練。因此,在金融自然語言處理任務方面,它比其他AI模型表現更好,甚至超過了同樣規模的開放模型。”
Thurai介紹稱,Med-PaLM2“在大量醫療數據集上進行訓練,包括教科書、研究論文、患者記錄等,這種密集訓練幫助該模型獲得了深厚的醫學知識,使其能夠理解醫療保健領域使用的復雜語言和概念。”
Thurai表示,Paxton AI法律語言模型“提供了對美國所有50個州和聯邦司法管轄區的數百萬個法律來源(包括法律、法院裁決和法規)的實時訪問”。
隨著來自各種來源的大數據不斷增加,合成數據的使用也將增加,但Thurai建議謹慎采用。“利用合成數據來訓練AI模型現在已經成為一個更大的家庭手工業,”他表示,“雖然其中很多都用于填補數據盲點,但有時這可能適得其反。通過使用AI來生成數據,可能會產生僅基于預期場景訓練的模型,這些模型在現實世界中遇到意外問題時可能會束手無策。”
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。