精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

數據治理必須如何發展才能應對GenAI的挑戰

責任編輯:cres 作者:Isaac Sacolick |來源:企業網D1Net  2024-02-27 16:12:00 原創文章 企業網D1Net

最近我想到了數據治理,所以我決定通過輸入提示來查詢ChatGPT:“什么是數據治理?”,人工智能回應道:“數據治理是一套流程、政策、標準和指導方針,可確保在企業內適當地管理、保護和利用數據”,這是一個很好的開始,此時此刻,關于數據治理及其意義還有很多要說的。
 
GenAI時代的數據治理
 
數據治理涵蓋了一系列學科,包括數據安全、管理、質量和編目,這種做法需要定義使用策略、創建主數據源、分析數據集、記錄字典和監督數據生命周期。組織模型通常定義促進策略的首席數據官、制定數據集策略的數據所有者和負責改進數據質量的數據管理員的角色。
 
“數據治理是數據完整性的關鍵要素,使企業能夠輕松地查找、理解和利用關鍵數據——從而實現準確的報告和明智的決策”,Precision的首席技術官TendüYogurtçu博士說,“它提供了對數據的含義、譜系和影響的理解,因此企業可以保持合規,并確保人工智能模型以可靠的數據為燃料,以獲得可靠的結果。”
 
Yogurtçu說,數據治理曾經是一項專注于合規性的技術任務。她說:“隨著人們越來越多地采用人工智能,數據已成為最重要的企業資產,數據治理應該成為整個企業的優先事項。”
 
對于許多嘗試使用GenAI或使用大型語言模型(LLM)構建應用程序的企業來說,數據治理責任更大,員工使用AI工具的方式帶來更多風險,非結構化數據帶來新的范圍。我咨詢了幾位專家,了解數據治理必須如何發展,以應對GenAI工具和能力所固有的機會和風險。
 
發展GenAI數據治理的4種方法
 
審查在GenAI工具和LLM中使用的數據策略
 
數據治理部門監督數據目錄并傳達數據使用策略,以幫助員工利用集中的數據集,并將其用于構建機器學習模型、儀表板和其他分析工具,這些部門現在正在更新政策,包括是否以及如何在土地管理系統和開放的GenAI工具中使用企業數據源。開發人員和數據科學家必須審查這些政策,并就使用數據集支持GenAI實驗的任何問題咨詢數據所有者。
 
Egnyte的聯合創始人兼首席安全官克里斯·拉希里表示:“隨著GenAI帶來更多的數據復雜性,企業必須有良好的數據治理和隱私政策,以管理和保護用于訓練這些模型的內容。企業必須格外關注這些人工智能工具使用了哪些數據,無論是OpenAI、Palm之類的第三方,還是公司內部可能使用的LLM。”
 
審查有關隱私、數據保護和可接受使用的GenAI政策,許多企業要求在將數據集用于GenAI用例之前提交請求和來自數據所有者的批準。在使用必須符合GDPR、CCPA、PCI、HIPAA或其他數據合規標準的數據集之前,請咨詢風險、合規和法律部門。
 
在使用第三方數據源時,數據策略還必須考慮數據供應鏈和責任。EDB的首席產品工程官Jozef de Vries表示:“如果發生涉及在特定地區受保護的數據的安全事件,供應商需要明確他們和客戶的責任,以適當地緩解這種情況,特別是如果這些數據打算用于AI/ML平臺的話。”
 
對于那些對GenAI機會感到興奮的人來說,通過了解他們企業的數據隱私、安全和合規政策,擁有優先事項的心態是很重要的。
 
加快數據質量計劃
 
許多公司都提供數據質量解決方案,包括ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS和Talend。2022年,全球數據質量工具市場規模超過40億美元,預計每年增長17.7%。我預計現在有更高的增長,因為許多公司都在試驗人工智能工具和LLM。
 
Piwik Pro的首席運營官馬特茲·克雷姆帕表示:“由于人工智能的好壞取決于支持它的數據,因此與人工智能合作的諸多挑戰都與數據質量有關,糟糕的數據質量可能會導致誤導性或錯誤的見解,嚴重影響結果。”
 
克雷姆帕表示,數據質量挑戰源于大數據的數量、速度和多樣性,特別是因為LLM現在利用的是該企業的非結構化數據源。希望開發內部LLM的公司將需要擴展數據質量計劃,以包括從文檔、協作工具、代碼庫和其他存儲企業知識和知識產權的工具中提取的信息。
 
Hakkoda的數據治理主管凱倫·梅本表示:“數據治理正在轉變,不僅要向LLM系統提供海量數據,而且要明智、安全地這樣做,重點是確保數據不僅是大的,而且是智能的 - 準確、可理解、隱私意識、安全,并尊重知識產權和公平的風險和影響。”
 
根據業務目標和數據類型的不同,可以使用不同的工具來提高數據質量。
 
·傳統數據質量工具可以對數據進行重復數據刪除、標準化數據字段、根據業務規則驗證數據、檢測異常并計算質量指標。
·主數據管理工具(MDM)可幫助企業連接多個數據源,并圍繞客戶和產品等業務實體創建真實來源。
·客戶數據平臺(CDP)是用于集中客戶信息并實現營銷、銷售、客戶服務和其他客戶交互的專用工具。
 
期待升級和新的數據質量工具,以改善對非結構化數據源的支持,并提高GenAI用例的數據質量能力。
 
Matillion的CISO Graeme Canu-Park的另一項建議側重于數據譜系的重要性。“人工智能將需要一種完全不同的方式來看待治理優先事項和實踐,以更好地了解為人工智能應用程序和模型提供支持的數據管道和數據譜系。”
 
數據沿襲有助于揭示數據的生命周期,并回答有關誰、何時、在哪里、為什么以及數據如何更改的問題。由于人工智能擴大了數據及其用例的范圍,因此對企業中更多的人,包括從事安全和其他風險管理職能的人來說,了解數據譜系變得更加重要。
 
審查數據管理和管道體系結構
 
著眼于政策和數據質量之外,數據治理領導者必須將他們的影響力擴展到數據管理和架構功能。主動式數據治理支持一系列功能,使更多員工能夠利用數據、分析以及現在的人工智能來完成工作并做出更明智的決策。如何存儲、訪問、生產、編目和記錄數據都是組織能夠以多快、多輕松、多安全的方式將其數據擴展到genAI用例中的所有因素。
 
Teradata的首席產品官希拉里·阿什頓建議了以下方法,讓最令人興奮的人工智能用例成為現實:
 
·創建可重復使用的數據產品,或經過精心管理的已知良好數據集,以幫助企業更好地控制其數據并向其灌輸信任。
·尊重數據引力,讓員工隊伍中更多的人能夠訪問信息,而無需跨不同環境移動數據。
·在考慮可伸縮性的情況下試點人工智能倡議,包括具有強大治理的AI/ML數據管道,該管道還支持開放和互聯的生態系統。
 
數據團隊的一個關鍵是確定易于使用并支持多種用例的框架和平臺。Ensono的總經理兼副總裁肖恩·馬奧尼說:“治理框架開始看起來更加靈活,使團隊能夠更快地響應技術進步的步伐”,他建議數據治理領導者也審查并參與到這些工具中來:
 
·數據網狀結構,用于將數據的管理委托給數據創建者。
·矢量數據庫,用于處理GenAI和LLMS固有的可伸縮性和復雜性。
·實時監控工具,可在更多系統中擴展數據治理。
 
另一個需要考慮的問題是,數據治理、管理和體系結構如何要求了解有關數據存儲的全球法規。EDB的De Vries建議:“企業應實施全球分布式數據庫,以提升其數據治理實踐,方法是將高度監管的數據保留在其區域內,同時在全球分發限制性較低的數據,以便在輸入人工智能平臺時實現靈活性。”
 
將數據治理擴展到GenAI工作流
 
數據治理功能還必須考慮如何使用GenAI工具和LLM需要策略和最佳實踐,例如,在本文的開頭,我明確引用了ChatGPT,以便讀者知道響應來自GenAI來源。良好的數據治理要求對員工進行教育,使其了解提高透明度的程序、允許他們使用的工具以及將數據隱私問題降至最低的做法。
 
“我看到的最大的事情是,在保持隱私和真實性的同時,準確地利用、共享和學習數據的方法正在興起”,PreThink的首席執行官迪恩·尼古拉斯說,“例如,像Perplexity這樣基于LLM的搜索引擎總是引用它們的來源,或者像Private AI這樣的數據編校技術,它允許你在攝取數據或將數據發送到LLMS之前對PIL進行清理和編校。”
 
數據治理領導者應該考慮的一個新的主動措施是創建提示庫,員工可以在其中記錄他們的即時用例,并在企業中共享它們,該規程擴展了許多數據治理團隊已經在維護數據目錄和數據字典方面所做的知識管理實踐。
 
RelationalAI的Research ML副總裁Nikolaos Vasiloglou說:“LLMS的基礎包括通常存儲在知識圖譜中的干凈和精心策劃的內容以及通常以提示庫的形式存儲的專家知識,雖然我們對知識圖譜有良好的治理實踐,但如何治理后者并不明顯。”
 
我喜歡《蜘蛛俠》電影中流行的一句話:“力量越大,責任越大”,我們正在看到GenAI能力的快速演變,問題是數據治理團隊是否會站在他們那一邊。
 
企業網D1net(hfnxjk.com):
 
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:大數據數據治理GenAI

原創文章 企業網D1Net

x 數據治理必須如何發展才能應對GenAI的挑戰 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

數據治理必須如何發展才能應對GenAI的挑戰

責任編輯:cres 作者:Isaac Sacolick |來源:企業網D1Net  2024-02-27 16:12:00 原創文章 企業網D1Net

最近我想到了數據治理,所以我決定通過輸入提示來查詢ChatGPT:“什么是數據治理?”,人工智能回應道:“數據治理是一套流程、政策、標準和指導方針,可確保在企業內適當地管理、保護和利用數據”,這是一個很好的開始,此時此刻,關于數據治理及其意義還有很多要說的。
 
GenAI時代的數據治理
 
數據治理涵蓋了一系列學科,包括數據安全、管理、質量和編目,這種做法需要定義使用策略、創建主數據源、分析數據集、記錄字典和監督數據生命周期。組織模型通常定義促進策略的首席數據官、制定數據集策略的數據所有者和負責改進數據質量的數據管理員的角色。
 
“數據治理是數據完整性的關鍵要素,使企業能夠輕松地查找、理解和利用關鍵數據——從而實現準確的報告和明智的決策”,Precision的首席技術官TendüYogurtçu博士說,“它提供了對數據的含義、譜系和影響的理解,因此企業可以保持合規,并確保人工智能模型以可靠的數據為燃料,以獲得可靠的結果。”
 
Yogurtçu說,數據治理曾經是一項專注于合規性的技術任務。她說:“隨著人們越來越多地采用人工智能,數據已成為最重要的企業資產,數據治理應該成為整個企業的優先事項。”
 
對于許多嘗試使用GenAI或使用大型語言模型(LLM)構建應用程序的企業來說,數據治理責任更大,員工使用AI工具的方式帶來更多風險,非結構化數據帶來新的范圍。我咨詢了幾位專家,了解數據治理必須如何發展,以應對GenAI工具和能力所固有的機會和風險。
 
發展GenAI數據治理的4種方法
 
審查在GenAI工具和LLM中使用的數據策略
 
數據治理部門監督數據目錄并傳達數據使用策略,以幫助員工利用集中的數據集,并將其用于構建機器學習模型、儀表板和其他分析工具,這些部門現在正在更新政策,包括是否以及如何在土地管理系統和開放的GenAI工具中使用企業數據源。開發人員和數據科學家必須審查這些政策,并就使用數據集支持GenAI實驗的任何問題咨詢數據所有者。
 
Egnyte的聯合創始人兼首席安全官克里斯·拉希里表示:“隨著GenAI帶來更多的數據復雜性,企業必須有良好的數據治理和隱私政策,以管理和保護用于訓練這些模型的內容。企業必須格外關注這些人工智能工具使用了哪些數據,無論是OpenAI、Palm之類的第三方,還是公司內部可能使用的LLM。”
 
審查有關隱私、數據保護和可接受使用的GenAI政策,許多企業要求在將數據集用于GenAI用例之前提交請求和來自數據所有者的批準。在使用必須符合GDPR、CCPA、PCI、HIPAA或其他數據合規標準的數據集之前,請咨詢風險、合規和法律部門。
 
在使用第三方數據源時,數據策略還必須考慮數據供應鏈和責任。EDB的首席產品工程官Jozef de Vries表示:“如果發生涉及在特定地區受保護的數據的安全事件,供應商需要明確他們和客戶的責任,以適當地緩解這種情況,特別是如果這些數據打算用于AI/ML平臺的話。”
 
對于那些對GenAI機會感到興奮的人來說,通過了解他們企業的數據隱私、安全和合規政策,擁有優先事項的心態是很重要的。
 
加快數據質量計劃
 
許多公司都提供數據質量解決方案,包括ATTACAMA、ColLibra、Experian、IBM、Informatica、Precision、SAP、SAS和Talend。2022年,全球數據質量工具市場規模超過40億美元,預計每年增長17.7%。我預計現在有更高的增長,因為許多公司都在試驗人工智能工具和LLM。
 
Piwik Pro的首席運營官馬特茲·克雷姆帕表示:“由于人工智能的好壞取決于支持它的數據,因此與人工智能合作的諸多挑戰都與數據質量有關,糟糕的數據質量可能會導致誤導性或錯誤的見解,嚴重影響結果。”
 
克雷姆帕表示,數據質量挑戰源于大數據的數量、速度和多樣性,特別是因為LLM現在利用的是該企業的非結構化數據源。希望開發內部LLM的公司將需要擴展數據質量計劃,以包括從文檔、協作工具、代碼庫和其他存儲企業知識和知識產權的工具中提取的信息。
 
Hakkoda的數據治理主管凱倫·梅本表示:“數據治理正在轉變,不僅要向LLM系統提供海量數據,而且要明智、安全地這樣做,重點是確保數據不僅是大的,而且是智能的 - 準確、可理解、隱私意識、安全,并尊重知識產權和公平的風險和影響。”
 
根據業務目標和數據類型的不同,可以使用不同的工具來提高數據質量。
 
·傳統數據質量工具可以對數據進行重復數據刪除、標準化數據字段、根據業務規則驗證數據、檢測異常并計算質量指標。
·主數據管理工具(MDM)可幫助企業連接多個數據源,并圍繞客戶和產品等業務實體創建真實來源。
·客戶數據平臺(CDP)是用于集中客戶信息并實現營銷、銷售、客戶服務和其他客戶交互的專用工具。
 
期待升級和新的數據質量工具,以改善對非結構化數據源的支持,并提高GenAI用例的數據質量能力。
 
Matillion的CISO Graeme Canu-Park的另一項建議側重于數據譜系的重要性。“人工智能將需要一種完全不同的方式來看待治理優先事項和實踐,以更好地了解為人工智能應用程序和模型提供支持的數據管道和數據譜系。”
 
數據沿襲有助于揭示數據的生命周期,并回答有關誰、何時、在哪里、為什么以及數據如何更改的問題。由于人工智能擴大了數據及其用例的范圍,因此對企業中更多的人,包括從事安全和其他風險管理職能的人來說,了解數據譜系變得更加重要。
 
審查數據管理和管道體系結構
 
著眼于政策和數據質量之外,數據治理領導者必須將他們的影響力擴展到數據管理和架構功能。主動式數據治理支持一系列功能,使更多員工能夠利用數據、分析以及現在的人工智能來完成工作并做出更明智的決策。如何存儲、訪問、生產、編目和記錄數據都是組織能夠以多快、多輕松、多安全的方式將其數據擴展到genAI用例中的所有因素。
 
Teradata的首席產品官希拉里·阿什頓建議了以下方法,讓最令人興奮的人工智能用例成為現實:
 
·創建可重復使用的數據產品,或經過精心管理的已知良好數據集,以幫助企業更好地控制其數據并向其灌輸信任。
·尊重數據引力,讓員工隊伍中更多的人能夠訪問信息,而無需跨不同環境移動數據。
·在考慮可伸縮性的情況下試點人工智能倡議,包括具有強大治理的AI/ML數據管道,該管道還支持開放和互聯的生態系統。
 
數據團隊的一個關鍵是確定易于使用并支持多種用例的框架和平臺。Ensono的總經理兼副總裁肖恩·馬奧尼說:“治理框架開始看起來更加靈活,使團隊能夠更快地響應技術進步的步伐”,他建議數據治理領導者也審查并參與到這些工具中來:
 
·數據網狀結構,用于將數據的管理委托給數據創建者。
·矢量數據庫,用于處理GenAI和LLMS固有的可伸縮性和復雜性。
·實時監控工具,可在更多系統中擴展數據治理。
 
另一個需要考慮的問題是,數據治理、管理和體系結構如何要求了解有關數據存儲的全球法規。EDB的De Vries建議:“企業應實施全球分布式數據庫,以提升其數據治理實踐,方法是將高度監管的數據保留在其區域內,同時在全球分發限制性較低的數據,以便在輸入人工智能平臺時實現靈活性。”
 
將數據治理擴展到GenAI工作流
 
數據治理功能還必須考慮如何使用GenAI工具和LLM需要策略和最佳實踐,例如,在本文的開頭,我明確引用了ChatGPT,以便讀者知道響應來自GenAI來源。良好的數據治理要求對員工進行教育,使其了解提高透明度的程序、允許他們使用的工具以及將數據隱私問題降至最低的做法。
 
“我看到的最大的事情是,在保持隱私和真實性的同時,準確地利用、共享和學習數據的方法正在興起”,PreThink的首席執行官迪恩·尼古拉斯說,“例如,像Perplexity這樣基于LLM的搜索引擎總是引用它們的來源,或者像Private AI這樣的數據編校技術,它允許你在攝取數據或將數據發送到LLMS之前對PIL進行清理和編校。”
 
數據治理領導者應該考慮的一個新的主動措施是創建提示庫,員工可以在其中記錄他們的即時用例,并在企業中共享它們,該規程擴展了許多數據治理團隊已經在維護數據目錄和數據字典方面所做的知識管理實踐。
 
RelationalAI的Research ML副總裁Nikolaos Vasiloglou說:“LLMS的基礎包括通常存儲在知識圖譜中的干凈和精心策劃的內容以及通常以提示庫的形式存儲的專家知識,雖然我們對知識圖譜有良好的治理實踐,但如何治理后者并不明顯。”
 
我喜歡《蜘蛛俠》電影中流行的一句話:“力量越大,責任越大”,我們正在看到GenAI能力的快速演變,問題是數據治理團隊是否會站在他們那一邊。
 
企業網D1net(hfnxjk.com):
 
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
 
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:大數據數據治理GenAI

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 榆林市| 福贡县| 安泽县| 长白| 涞水县| 山丹县| 修水县| 丽江市| 浪卡子县| 土默特右旗| 高要市| 长泰县| 堆龙德庆县| 乌兰浩特市| 丹江口市| 资源县| 余江县| 彰武县| 唐河县| 馆陶县| 潢川县| 西和县| 上饶市| 德钦县| 邢台市| 湛江市| 定西市| 喀喇| 临朐县| 濮阳市| 宁陵县| 日照市| 华阴市| 泸西县| 赫章县| 都匀市| 珲春市| 澜沧| 金门县| 康定县| 泾川县|