尋求從公司所收集的數據中獲得業務價值的IT領導者一直面臨著無數挑戰。也許最難以理解的是失去了對那些被創建的、經常存儲的、但很少與之交互的數據進行利用的機會。
這種以物理學中的暗物質命名的所謂“暗數據”,是在經營流程中例行收集的信息:它是由員工、客戶和業務流程所產生的。它可能是由計算機、應用程序和安全系統所生成的日志文件。也可能是出于遵從性的目的而必須保存的文檔,以及永遠不應該保存但仍然保存了的敏感數據。
根據Gartner的說法,你的企業信息世界中的大多數數據都是由“暗數據”組成的,許多公司甚至都不知道他們擁有多少此類數據。存儲數據會增加合規性和網絡安全風險,當然,也會增加成本。
弄清楚你擁有哪些暗數據、它們保存在哪里以及其中包含哪些信息是確保這些暗數據中有價值的部分是安全的,而不應該保存的部分則會被刪除的關鍵步驟。但是,發掘這些隱藏數據的真正優勢可能在于將其用于實際的業務。
但想要挖掘暗數據并非易事。它有各種各樣的格式,可以完全非格式化,例如,可能是被鎖在了掃描文檔或音頻和視頻文件當中。
以下是一些企業將暗數據轉化為商業機會的方法,以及業內人士對希望利用暗數據的IT領導者的一些建議。
來自賽車手的編碼音頻
五年來,Envision Racing一直在收集100多場E級方程式賽車的錄音,每場比賽都會有20多名車手參加。
“廣播流在開放頻率上可供任何人收聽,”Genpact全球分析主管Amaresh Tripathy說。Genpact是一家咨詢公司,正在幫助Envision Racing利用這些數據。
此前,英國賽車隊的賽車工程師試圖在比賽期間實時使用這些音頻傳輸,但車手所使用的代號和首字母縮寫詞使其難以被理解和利用,但是,了解其他車手所說的內容有助于幫助設想賽車手的賽車策略,Tripathy說。
“例如何時使用進攻模式。何時進行超車。何時該剎車。”他說。
Envision Racing還從自己的汽車上收集了傳感器數據,如輪胎、電池和剎車,并從供應商處購買了外部數據,如風速和降水量。
Genpact和Envision Racing合作,解鎖了這些數據流的價值,并利用自然語言處理所構建的深度學習模型對它們進行了分析。這個流程花了六個月的時間,從準備數據管道,到接收數據,到過濾噪音,再到產生有意義的對話。
Tripathy說,人類需要5到10秒才能弄清楚自己在聽什么,這種延遲使得無線電通信變得無關緊要了。而現在,由于人工智能模型的預測和洞察,他們現在可以在一到兩秒鐘內就做出反應了。
今年7月,在紐約舉行的ABB國際汽聯電動方程式世界錦標賽上,Envision Racing的車隊獲得了第一名和第三名,Tripathy將這一結果歸功于利用了以前的暗數據。
暗數據掘金:人工生成的數據
Envision Racing的音頻文件是人類生成暗數據的一個例子,它旨在供其他人使用,而不是供機器使用。數據存檔平臺提供商ZL Technologies的聯合創始人兼首席執行官Kon Leong表示,這種暗數據對企業來說是非常有用的。
“它對于理解企業人性化方面的每一個要素,包括文化、績效、影響力、專業知識和參與度,都具有難以置信的強大功能。”他說。“員工每天都在分享絕對海量的數字信息和知識,但到目前為止,這些信息和知識在很大程度上都尚未得到開發。”
電子郵件、消息和文件中所包含的信息都可以幫助企業獲得洞見,例如企業中最有影響力的人是誰。“公司80%的時間都花在了溝通上。然而,分析所處理的數據往往只反映了我們所花費的1%的時間。”
處理人類生成的非結構化數據具有獨特的挑戰性。例如,數據倉庫通常就不是用來處理這些通信的。此外,收集這些通信也可能會給公司帶來新的問題,涉及合規性、隱私和法律發現。
“這些治理能力在今天的數據湖概念中并不存在,事實上,通過將數據收集到數據湖中,你可能又創造了另一個豎井,增加了隱私和合規性風險。”Leong說。
相反的,公司也可以將這些數據留在當前所在的位置,只需添加一層索引和可搜索的元數據。保留這些數據還將使其保持在現有的合規性結構之內,他表示。
有效治理是關鍵
處理價值和來源有問題的暗數據的另一種方法是從可追溯性開始。
《數據可觀測性基礎》一書的作者Andy Petrella說:“暗數據現在被認為是一種可以利用的未開發資源,這是行業的一個積極發展。”該書目前在O'Reilly以預發布的形式提供。Petrella還是數據可觀測性提供商Kensu的創始人。
“利用暗數據的挑戰在于,人們對它的信心很低。”特別是關于數據收集的地點和方式,他說。“可觀察性可以使數據譜系透明,因此是可追溯的。可追溯性實現了數據質量檢查,從而使得人們對使用這些數據來訓練AI模型或根據其帶來的智能來采取行動也充滿了信心。”
專注于監管、風險和合規性問題的全球咨詢公司StoneTurn的董事總經理Chuck Soha也認為,處理暗數據的通用方法——把所有東西都扔進數據湖里——會帶來巨大的風險。
這在金融服務行業尤其如此,該行業的企業多年來一直在向數據湖發送數據,他表示。“在一個典型的企業中,IT部門會將所有可用數據與一些基本元數據一起轉儲到一個地方,并創建與業務團隊共享的流程。”他說。
這適用于內部擁有必要分析人才或為特定用例聘請了外部顧問的業務團隊。但在大多數情況下,這些舉措只是取得了部分成功,Soha說。
“首席信息官們從‘不知道自己不知道’轉變為了‘知道自己不知道’,”他說。
相反,公司應該從數據治理開始,了解存在什么數據,它可能會有什么問題,而其中的數據質量會是首要問題。
“利益相關者可以決定是清理和標準化它,還是從更好的信息管理實踐開始。”Soha說,而致力于從包含不一致或沖突信息的數據中提取見解將是一個錯誤。
Soha還建議將各個業務部門已有的良好運營數據聯系起來。弄清楚這些關系可以產生快速而有用的見解,并可能不需要立即查看任何暗數據,他說。“它還可能識別出可以優先考慮的空白,然后在暗數據中開始尋找填補這些空白的地方。”
最后,他說,人工智能在幫助理解剩余的非結構化數據方面也非常有用。“通過使用機器學習和AI技術,人類可以只查看1%的暗數據,并對其相關性進行分類。”他說。“然后,強化學習模型就可以快速生成剩余數據的相關度分數,進而更仔細的觀察數據的優先級了。”
利用AI來提取價值
用于處理暗數據的常見人工智能解決方案包括了亞馬遜的Textract、微軟的Azure Cognitive Services、IBM的Datacap,以及谷歌的Cloud Vision、Document、AutoML和NLP API。
在Genpact與Envision Racing的合作中,Genpact在內部編寫了機器學習算法,Tripathy說。他說,這需要Docker、Kubernetes、Java和Python的知識,以及NLP、深度學習和機器學習算法開發,以及需要MLOps架構師來管理整個流程。
不幸的是,這些技能都很難獲得。Splunk去年秋天發布的一份報告顯示,在接受調查的1300多名IT和商業決策者中,只有10%到15%的人表示,他們的企業正在使用人工智能來解決暗數據問題。缺乏必要的技能是利用暗數據的主要障礙,僅次于數據本身的數量。
風險與機遇并存
與此同時,暗數據仍然是一個越來越多的風險和機遇的寶庫。根據行業的不同,對企業數據中黑暗部分的估計會從40%到90%不等。
根據由Quest贊助的Enterprise Strategy Group 7月份的一份報告,平均而言,有47%的數據是暗數據,而20%的受訪者表示,他們的數據中有超過70%是暗數據。Splunk的調查也顯示了類似的結果,平均55%的企業數據是暗數據,三分之一的受訪者表示,他們的企業數據中有75%或更多的是暗數據。
在情況好轉之前,還可能會變得更糟,因為60%的受訪者表示,他們的企業中有一半以上的數據還根本沒有被捕獲,其中的大部分甚至都沒有被理解為是存在的。隨著這些數據被逐漸發現并存儲,暗數據的數量還將繼續上升。
首席信息官們是時候制定一個應對這種情況的計劃了,并著眼于充分利用任何有望為企業創造新價值的暗數據。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營18個IT行業公眾號(微信搜索D1net即可關注)
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。