但是,無論基于人工智能的智能工具是什么,其效率都會受到提供數據質量的限制。而且,在信息過載的時代,其標準是多種多樣的。
早在2014年,調研機構IDC預測到2020年全球數據量將達到44ZB。數字化以極快的速度發展,其最近的估計表明,到2025年,全球年度數據生成量將達到驚人的163ZB。在數據生產不斷升級的情況下,許多公司都在努力提取有價值的洞察力,并且數據質量可能很低也就不足為奇了。這對人工智能來說并不是個好兆頭。正如Thomas C. Redman在其所撰寫的數據文檔”(Data Doc)所說的那樣:“質量差的數據是利用機器學習的頭號敵人,當然還有人工智能。”
那么,企業可以采取哪些措施來確保人工智能技術不受其輸入的影響?簡短的回答是只為具有智能數據的機器提供數據。另一個答案是學習如何從壞數據中辨別出好數據。
利用數據的好處
盡管當今日益龐大的信息為組織帶來了巨大的挑戰,但仍有可能獲得干凈、可靠和無偏見的數據。所有組織必須做的是在他們擁有和收集的數據中尋找以下五個關鍵特征:
(1)符合GDPR標準
首先,企業應該避免采用任何不符合隱私法規的數據集,尤其是歐盟實施的《一般數據保護條例》(GDPR)。除了在處理不合規數據時可能產生巨額罰款的明顯缺點之外,不符合GDPR規則的信息也可能質量較差。畢竟,該法規不僅增強了消費者的權利,而且更加強調了認可和準確性,特別是在確保數據是最新的時候。
(2)正確的數據
接下來,正確的數據至關重要。更具體地說,它應該被正確標記(沒有誤導性描述),是最新的、無欺詐的、不重復的。當然,所需的準確度取決于其預期用途。例如,人工智能營銷機器人根據客戶的位置與客戶交談可能不需要精確的坐標,只是想知道他們居住的街道、城鎮或城市。另一方面,使用數據為自動駕駛汽車提供動力的人工智能需要對道路布局以及如何在各種交通情況下做出反應進行細致的了解。
(3)一致的數據
在市場上有很多系統收集相同類型的數據源。無論哪種類型的平臺都在收集數據或存儲數據,數據都不應與不同平臺持有的同一源點的其他數據相矛盾。人工智能只能通過不斷重復提供高質量數據和消除妨礙效率的差異來進行實時培訓。收集的數據太快或太晚都可能歪曲事實,并導致不準確的決策。
(4)實時收集
在快速移動的現代數據世界中,無法立即獲得的數據幾乎肯定是多余的。例如,消費者參與數字廣告的分析目前是最有用的,這將允許營銷人員實時識別個人喜歡什么,并調整消息傳遞以驅動最佳響應。這使得數據立即被收集、混合并轉化為可操作的洞察力至關重要。
(5)完整和細化
為了做出有效的決策,人工智能算法需要所有相關的信息,這意味著它們需要訪問整體的、完整的數據集。例如,旨在提供量身定制的跨渠道客戶服務的智能系統將無法實現這一目標,除非他們擁有涵蓋客戶關系管理系統(CRM)、社交媒體、零售商店和網站的具有洞察力的360度個人視圖。這使得數據必須存儲在一個集中式存儲庫中,而不是單獨的孤島,其中與特定個人、項目或產品相關的信息是相互關聯的。
如今,數據被描述為比石油更有價值,但與石油不同,數量更多卻不能提供更多的財富。因此只是收集盡可能多的數據是不夠的:如果要提供真正的價值,質量也必須很高。在為人工智能提供數據時,這意味著驅動算法的洞察力需要很高的標準,這不僅在合規性方面,而且在準確性、一致性、集成、可用性方面都是如此。
人工智能的未來究竟是什么可能尚不清楚,但可以肯定的是,那些明智地選擇數據的組織,以及那些負責任地管理數據的組織,將需要挖掘其全部潛力。