• 非結構化數據包括文檔、照片和視頻,雖然數量巨大,但難以駕馭。
• 盡管GenAI提供了強大的工具來提取和利用這些數據,但專家強調需要強有力的數據治理。
GenAI正在革新組織管理和使用非結構化數據的方式,這是一種長期以來數量龐大卻難以駕馭的資源,但如果沒有明確的策略,它可能會打開“潘多拉的盒子”。
結構化數據包括常見的表格、Excel表和數據庫,而非結構化數據則涵蓋從舊郵件、PDF、采購訂單和發票到培訓手冊和維修指南的所有內容。IDC數據智能與集成軟件副總裁Steward Bond指出,由于管理不當,這些數據通常被忽視,閑置在硬盤或云存儲中未被使用。
“我認為,使用GenAI來揭示‘黑暗數據’中隱藏的機會是巨大的,”Bond在接受Fierce Network采訪時表示,“GenAI可以用于讀取未標記或未標簽的內容,識別內容中的信息(包括任何敏感信息),并添加適當的元數據,使其變得可見并可用于使用。”
組織生成了海量的非結構化數據,根據IDC全球數據球體(Global DataSphere)的估計,僅在2023年就創造了132澤字節的數據,其中64%來自企業。Bond表示,這其中很多是“黑暗數據”,即沒有被適當地捕捉、標記或管理,因此難以訪問和使用。
然而,大型語言模型非常適合理解和處理非結構化數據,因為它們通過大量此類內容進行訓練。Bond解釋說,大型語言模型可以基于非結構化數據輸入回答各種問題并生成內容。
事實上,像檢索增強生成(RAG)這樣的技術提供了一種將額外數據融入模型提示中的方法,從而提高生成內容的準確性和相關性。
非結構化數據能告訴我們什么?
企業和服務提供商都認識到GenAI在從長篇文檔、研究論文和電子郵件等非結構化來源中提取并結構化數據方面的潛力。
這種能力對于需要將非結構化數據與下游流程連接的組織至關重要,例如將采購訂單集成到ERP系統中,IDC企業內容與知識管理戰略研究經理Amy Machado表示。除了簡單的提取,GenAI還可以幫助組織搜索、發現、總結,甚至基于現有的非結構化數據生成新內容。
Machado在接受Fierce采訪時表示,這將以往難以訪問的知識轉化為可執行的洞察,從而推動業務流程和決策。“很多非結構化數據中存儲了知識。”她補充道。
例如,AWS現在使用GenAI來增強其銷售團隊的能力,通過將CRM系統中的結構化數據與銷售資料等非結構化數據結合,模型能夠生成全面的客戶賬戶摘要,為銷售團隊提供更多上下文相關的見解。
結構化數據提供了定量基礎(例如,消費、管道)以及歷史趨勢,而非結構化數據則增加了定性的深度。像銷售資料和外部網頁數據這樣的非結構化內容提供了結構化數據可能遺漏的背景和細節。
“GenAI和大型語言模型徹底改變了我們對非結構化內容的處理方式,過去大規模分析這些內容一直具有挑戰性。”AWS GenAI首席技術產品經理Rupa Boddu在接受Fierce Network采訪時表示。
清理不良數據
盡管利用GenAI處理非結構化數據的好處顯而易見,但同樣重要的是確保這些模型所使用的數據是準確的、公正的,并且不包含敏感信息。
非結構化數據就像一個數字垃圾場,信息被拋棄并遺忘了很多年。現在,許多公司對其中隱藏的信息幾乎沒有了解,打開這個“垃圾場”可能會帶來不可預見的后果。
Gartner副總裁分析師Bart Willemsen表示,使用非結構化數據進行GenAI應用引發了有關隱私和數據治理的關鍵問題,“這是大多數企業似乎還未解決的問題。”
Willemsen指出,大多數公司實際上并不了解他們所積累的數據——在某些情況下,這些數據可能有幾十年的歷史——他們不清楚最初為什么會擁有這些數據,或這些數據服務于什么目的。
如果沒有適當的數據治理,GenAI可能會傳播錯誤信息或偏見,導致錯誤的輸出和潛在的有害決策。因此,企業必須實施強有力的數據治理框架,以管理用于訓練和部署GenAI模型的非結構化數據的質量和安全性。
Willemsen總結道,企業應該在使用任何AI之前,具備“絕對的、細致的”數據治理控制。“我不在乎AI技術本身有多好,如果你有糟糕的數據,那么你的AI也會很糟糕。”
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。