幾年前,Uber的一輛自動駕駛汽車撞死了一名在人行橫道外過馬路的行人。哪里出了問題?當技術人員訓練汽車識別行人時,他們大多使用包含人行橫道的圖像,他們無意中教會了AI系統,人行橫道是重要的部分。
雖然大多數將AI應用到他們的運營中的公司都不會處理像人命這樣重要的事情,但這里有一個突出的教訓:向AI系統提供糟糕的數據,你會得到糟糕的結果。AI無疑將成為下一個重要的業務差異化因素,但只有那些能夠控制數據的公司才會如此。
糟糕的數據,糟糕的AI
負責任的AI如今是一個如此時髦的詞,因為許多公司都有一個嚴重的數據問題——他們不知道自己擁有什么數據,這是不安全的。將未知、未管理的數據輸入AI系統,只會導致數據泄露、違反監管規定、錯誤的戰略決策、意外的偏見或聲譽損害。
問題是許多公司手頭都有一堆亂七八糟的數據,他們要么有一個隨意的戰略,要么根本沒有關于數據治理的戰略,即收集、使用和存儲數據的規則和流程。
企業不會停下來搞清楚他們的數據戰略,一心想要追逐更華麗、更創收的項目。然而,當公司想要將這些數據放在一起——比如說,應用在AI工具中——他們沒有辦法這樣做,因為沒有任何關于如何處理數據的總體規則,他們留下了一個巨大的爛攤子,需要大量的時間和投資來解決。
換句話說,數據治理可能看起來并不令人興奮或華而不實,但它構成了任何成功的AI項目的基礎。
修復數據的實用方法
通過數據治理,追溯應用于企業中的所有數據是一項艱巨的任務。謝天謝地,沒有必要花那么大的錢來開始你的下一個AI項目。這里有一個務實、及時的方法來修復你的數據,利用AI的力量,并在此過程中逐步創造價值:
選擇一個用例,從為AI挑選一個用例開始,AI可以提供幫助的主要商業任務是什么?你知道你在哪里擁有可以為AI挖掘的專有或第三方數據?你希望選擇一個既不太大也不太小的用例,最好是內部的用例。你的第一個用例還應該具有有限的數據域要求-換句話說,一個只需要來自一個源的數據的用例。
然后,計算出你要處理的數據的狀態。在將數據輸入AI系統之前,你需要更正哪些內容?
修復該用例所需的數據。一旦你有了可行的用例并評估了前進所需的數據狀態,就可以開始清理工作了。你的數據不一定要完美才能開始從AI工具中創造價值,但在利用它之前,你確實需要了解它的缺陷。
你將需要為該單個用例部署盡可能多的治理和策略,必要的數據治理組件包括:
·數據獲取:你將如何從源系統獲取數據,并將其存儲在哪里?
·數據質量:你的數據有多完整和準確?這些數據是否帶有AI偏見的風險?在將其輸入AI系統之前,你需要將其清理嗎?
·數據隱私:你的數據是否包括私人或受保護的信息,如健康信息。AI系統會以一種會導致隱私問題的方式將數據整合在一起嗎?例如,如果AI向通用客戶記錄中添加信息,使個人可以以受保護的方式識別,這稱為編譯分類,需要加以防范。
這些要素共同構成了數據治理、如何獲取數據、如何使用數據的計劃,以及防止濫用的適當控制和策略。
創建你的總體數據戰略。在探索初始用例的同時,開始整合總體數據框架和策略,這將告訴你如何在整個企業中收集、維護和保護數據。
一旦你的第一個用例完成,選擇另一個要重點關注的領域。以第一個用例的成功和教訓為基礎。你需要如何調整你的數據策略?不斷重復,在此過程中清理數據。
這種方法的口頭禪是,從大處著想,從小處做起。通過在整理企業數據的同時一次處理一個用例,你將通過AI逐步創造價值,同時構建堅實的數據治理基礎,為未來的任何AI計劃提供動力。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。