GenAI的出現標志著技術進步的新紀元,承諾將改變各個行業及我們消費數據的方式。數據治理在確保為AI系統提供的燃料——數據的質量和完整性方面起著關鍵作用。
根據TechTarget的企業戰略集團在2024年6月進行的《AI時代的數據治理》研究,70%的企業表示,他們在AI驅動的項目中優先考慮數據的質量和完整性,這種高度關注凸顯了強有力的數據治理與AI項目成功之間不可分割的聯系。
然而,只有46%的企業對用于決策的數據準確性表現出適度的信心,這一數據表明,盡管企業理解數據質量的重要性,但在將這種認知轉化為確保數據信任的具體行動方面仍存在困難,這是企業在構建內部和面向客戶的GenAI工具時需要克服的障礙,包括數據庫、治理工具、機器學習和分析在內的GenAI工具和基礎設施,都可以幫助建立對企業GenAI使用案例中所用數據的更大信任。
為什么在AI時代,數據治理的角色變得如此關鍵?答案在于AI系統的本質。構建由GenAI驅動的應用程序的企業應從定義用例開始,例如,一個由GenAI驅動的知識庫,員工和客戶可以快速獲得公司和產品的答案,這一過程始于數據基礎——即企業數據,如產品目錄、培訓文件和支持數據。這些數據經過向量化數據庫處理,使用檢索增強生成和嵌入等技術,從大型語言模型或基礎模型(如OpenAI的GPT、Google的Gemini或前端聊天機器人)中提取數據,使用戶能夠提出問題,并基于特定企業數據基礎,以自然語言形式獲得回答。這個例子展示了數據質量、準確性、合規性和對用于GenAI應用的企業數據控制的重要性。數據的質量和代表性直接影響GenAI工具的準確性、公平性和可靠性。
考慮到偏見或不準確數據的影響:一個基于劣質數據訓練的AI系統可能會延續現有的偏見,導致歧視性的結果。例如,使用過時信息的AI算法可能會提供不準確的定價、功能和特性信息,或者,如果未能從數據中清除機密信息,這些信息可能會被泄露。隨著企業從多樣化來源收集和處理越來越多的數據,出現錯誤、不一致和隱私泄露的可能性呈指數增長。如果沒有強有力的數據治理,企業將面臨重大財務、聲譽和法律責任的風險。
為了降低這些風險并充分釋放AI的潛力,企業必須將數據治理作為其AI戰略的核心要素進行優先考慮,它們應實施全面的框架,涵蓋數據質量、安全性、隱私和可訪問性等方面。強有力的數據治理計劃的關鍵組成部分包括:
• 數據質量管理:通過數據清洗、驗證和分析,確保數據的準確性、完整性、一致性和及時性。
• 數據安全:保護敏感數據免受未經授權的訪問、使用、泄露、干擾、修改或破壞。
• 數據隱私:通過數據最小化、匿名化和加密,確保遵守隱私法規并保護個人權利。
• 數據可訪問性:在保持適當控制以防止濫用的同時,使授權用戶能夠方便地訪問數據。
• 數據治理框架:為數據管理建立明確的角色、責任和流程,包括數據所有權、管理和問責制。
通過投資數據治理,企業可以建立對其GenAI工具的信任,提升決策能力并降低風險。GenAI有潛力改變我們獲取信息的方式,但每個企業都有責任建立可信的產品,而這一切都始于強有力的數據治理。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。