數據治理在確保數據可用、一致、可信和安全方面發揮著關鍵作用。維護數據治理面臨許多挑戰,企業對AI和ML等系統的投資也加大了。
AI/ML系統的功能與傳統的固定記錄系統不同,目標不是返回單個事務的值或狀態,相反,AI/ML系統篩選數PB的數據,尋找可能是巨大和多方面的查詢的答案。
此外,數據可以來自許多不同的內部和外部來源,每個來源都有自己的收集、管理和存儲數據的方式,這可能符合也可能不符合你的企業的治理標準,然后,還有一個問題是確保AI/ML系統在可信數據上進行訓練,以確保準確性。
這些只是公司及其審計師在專注于AI/ML的數據治理并尋找可以幫助他們的工具時面臨的部分擔憂。
為什么AI/ML系統需要數據治理?
根據IBM全球AI采用指數2022,全球AI采用率為35%,在全球一些行業和國家普遍存在。這種快速采用AI和ML系統來推動創新和決策的做法,使得底層數據的完整性和管理變得至關重要。
與傳統計算系統相比,AI和ML系統更加細致入微,突顯了數據治理的重要性。AI/ML系統需要健壯的數據治理框架的主要原因有兩個:
·動態結構:與傳統數據系統相比,AI/ML系統是動態的——不斷發展,并從結構化和非結構化數據中學習。
·數據量和多樣性:AI/ML系統的效能與它訓練和學習的數據集的數量和多樣性成正比。
由于這些因素,如果沒有嚴格的治理,AI/ML系統可能會產生不一致、不準確甚至有偏見的輸出。
數據治理如何與AI/ML系統一起工作?
AI/ML系統旨在同時和異步處理海量數據,這意味著同時將多個數據線程送入處理器,從而實現更快、更高效的數據處理。
然而,這也帶來了復雜性,AI/ML系統的主要目標是在海量數據集中搜索以找到答案,范圍從基于歷史數據預測未來趨勢到識別電子商務數據中的模式。如果來自一個來源的數據被破壞或有偏差,它可能會影響整體輸出,使結果不可靠。
因此,將嚴格的數據治理整合到流程中至關重要,以確保每個數據線索都是準確的、相關的和沒有偏見的。
IT在加快數據處理方面的作用
IT部門在AI/ML數據治理流程中發揮著關鍵作用,通過預處理和剔除不相關或冗余的數據,它們可以顯著加快AI/ML系統的數據處理時間,這確保AI/ML模型高效運行,并與最相關和高質量的數據一起工作。
此外,IT團隊可以實施工具和協議來自動化許多治理任務,例如數據驗證、確保跨數據源的一致性以及監控潛在的安全漏洞。
實施AI/ML系統的數據治理面臨的挑戰
AI/ML系統的數據集成和管理帶來了企業需要應對的幾個數據治理挑戰。
集成來自多個源的數據
當企業從多個來源收集數據時,每個來源都有自己的治理標準,確保一致性成為一個重大障礙。這種多樣性可能導致數據不匹配、冗余和不準確。
數據必須協調一致,以提供對目標至關重要的全面觀點,將數據整合成統一的格式是一個復雜的過程,涉及清理、轉換和標準化。
為了避免有缺陷的模型,確保AI/ML系統使用的海量數據集準確和相關是至關重要的。
信任建議
一些AI/ML模型的訓練數據是保密的,使得企業很難完全信任和理解這些系統提供的建議。如果不了解決策是如何做出的,就存在誤解或誤用的風險。
例如,AI/ML模型有時會反映或放大數據中的偏差。根據Obermeyer等人的一項研究,一種使用醫療成本作為健康需求代理的算法,將比其他白人患者病情更重的黑人患者分配給相同水平的健康風險。
了解模型使用了哪些訓練數據,并實施了嚴格的數據治理,有助于識別和糾正這些偏差,確保模型結果的公平性。
維護數據質量
由于AI/ML系統嚴重依賴高質量的數據,因此確保數據干凈、準確和最新至關重要,糟糕的數據質量可能導致錯誤的模型預測和洞察。
例如,糟糕的數據質量可能會導致預測中的偏差。亞馬遜停產的招聘模式是另一個很好的例子,2014年,機器學習系統經過訓練,對女性求職者產生了偏見。
對AI/ML系統實施數據治理可確保使用的數據始終具有最高質量,這有助于消除任何偏見或不準確。
數據安全和隱私
處理大量已處理的數據需要在保護敏感信息和遵守法規方面保持警惕,更大的數據量伴隨著更高的安全和合規風險,這要求遵守許多跨境的不同數據隱私和保護法律。
數據安全方面的疏忽可能會產生可怕的后果,例如未經授權的訪問、數據篡改和入侵,它還可能破壞人們對AI系統的信任,并導致法律后果,損害公司的聲譽,并通過銷售額下降或監管罰款導致財務損失。
數據治理政策主動確保數據安全符合數據保護法規,采用加密方法,并通過審計定期監控數據訪問。
如何將數據治理應用于AI/ML系統
AI/ML中的數據治理的未來不僅是管理數據,而且還確保負責任和有效地利用數據。隨著AI/ML的發展,穩健的數據治理的重要性也在不斷發展,企業必須具有主動性、適應性,并配備正確的工具來駕馭這一領域。
確保數據的一致性和準確性
在集成來自內部和外部事務系統的數據時,數據應該標準化,以便它可以與來自其他來源的數據進行通信和混合。許多系統中預置的應用程序編程接口有助于實現這一點,因此它們可以與其他系統交換數據。如果沒有可用的API,企業可以使用ETL工具,這些工具可以將數據從一個系統傳輸到另一個系統可以讀取的格式。
在添加非結構化數據(如照片、視頻和聲音對象)時,可以使用對象鏈接工具將這些對象彼此鏈接和關聯。對象鏈接器的一個很好的例子是地理信息系統,它將照片、示意圖和其他類型的數據結合在一起,為特定環境提供完整的地理環境。
確認數據可用
我們通常認為可用的數據是用戶可以訪問的數據,但它不止于此。如果數據因為過時而失去了價值,那么它應該被清除,也就是說,IT和企業用戶必須就何時應該清除數據達成一致,這將以數據保留政策的形式出現。
還有其他應該清除AI/ML數據的情況,當AI的數據模型發生更改,并且數據不再適合該模型時,就會發生這種情況。
在AI/ML治理審計中,審查員將期望看到這兩種類型的數據清除的書面政策和程序,他們還將檢查數據清除做法是否符合行業標準。為了跟上這些標準和做法,企業應該考慮投資于數據清除工具和實用程序。
確保數據可信
情況會變的,曾經非常有效的AI/ML系統可能會開始失去效力,這就是所謂的模型漂移,這可以通過定期檢查AI/ML結果與過去的表現和世界上正在發生的事情來確認。如果AI/ML系統的準確性偏離當前數據,那么修復它是必不可少的。
數據科學家可以使用AI/ML工具來衡量模型漂移,但商業專業人士檢查漂移的最直接方法是將AI/ML系統性能與歷史性能進行交叉比較。
用于AL/ML系統的數據治理工具
為了應對在AI/ML系統中實施數據治理的挑戰,企業可以投資于數據治理工具,以下是一些頂級工具:
·ColLibra:適用于全面數據管理和治理的整體數據治理平臺。
·Informatica:以數據集成而聞名,它是集成來自多個來源的數據的理想選擇。
·Alation:使用ML自動化數據發現和編目。
·ERWIN:提供數據建模功能,幫助企業了解其數據環境。
·OneTrust:強調數據合規性,幫助企業遵守法規。
·SAP主數據治理:為企業提供強大的數據處理和治理。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。