充分利用企業數據是當今IT領導者最關心的問題。隨著企業尋求在業務決策中更多地以數據為導向,IT領導者必須制定數據戰略,以便從數據中創造價值,無論數據位于何處或以何種形式存在。
對于許多企業來說,文本、視頻、音頻、社交媒體、圖像、傳感器和其他格式的非結構化數據仍然是難以捉摸和未開發的。根據Foundry的研究,雖然行業研究估計高達90%的企業數據是非結構化的,但61%的IT領導者表示,管理非結構化數據對其企業來說是一個問題,另有24%的人甚至不將非結構化數據包括在他們的數據和分析候選列表中。
非結構化數據資源對于獲得業務洞察和解決問題非常有價值,關鍵是弄清楚如何創造這種價值。熟練利用這些海量信息資源的企業可以在向關鍵業務流程提供可操作的洞察方面獲得顯著優勢。
以下是當今創造性企業如何將非結構化數據轉化為業務價值,以及如何將非結構化數據應用于你的企業的一些提示。
加強創意過程
移動游戲開發公司RetroStyle Games的數據分析師伊萬·科諾瓦爾表示,在該公司,非結構化數據已被證明是一座“金礦”,直接為業務增長和游戲改進做出了貢獻。
在RetroSyle Games使用非結構化數據的眾多方式中,可能影響最大的是概念藝術收集和音頻數據。
“我們的游戲開發者的創作過程往往始于素描、意境板或概念藝術,”科諾瓦爾說“這些作品雖然不是結構化的,但抓住了我們想要在游戲中表達的精髓。為了確保這些作品不會在其他作品中丟失,并在未來制作游戲續集時很容易找到,我們使用了先進的圖像識別工具。”
這些工具對藝術品的各種元素進行分類和標記,無論是角色、風景還是其他元素。科諾瓦爾說:“這使我們的藝術家和開發人員能夠快速找到相關的藝術品,從而提供設計一致性,并加快開發進程。此外,這個系統還允許我們存儲有關公司藝術品發展的信息,這在培訓新員工時非常有用。”
關于音頻數據,語音表演在玩家在游戲世界中的體驗中扮演著關鍵角色,科諾瓦爾說。“我們從游戲中的對話、背景聲音和玩家語音聊天中收集了大量數據,”他說,“使用語音識別和聲音分析,我們可以提取情緒和情緒等細微差別。”
例如,如果某個對話框導致玩家始終興奮地輸入語音聊天,開發人員會注意到這一點,類似地,識別并處理與環境不匹配的異常情況,例如背景噪音。
科諾瓦爾說:“從這些音頻數據中得出的見解直接有助于改善游戲的音頻體驗,確保玩家不斷地在游戲中投入情感,并與環境互動。”
科諾瓦爾說,游戲是動態的,它們產生的數據也是動態的。游戲中聊天情緒分析等功能需要實時處理,以過濾玩家的不當行為。“我們已經通過利用像阿帕奇·卡夫卡這樣的流處理框架解決了這個問題,”他說,“這使得我們的游戲主持人可以對任何新出現的模式和問題做出實時回應。”
科諾瓦爾說,隨著游戲的每一次發布和更新,處理的非結構化數據量都會呈指數級增長。“海量的數據在存儲和高效處理方面構成了嚴峻的挑戰。”他說。
為了解決這個問題,RetroStyle Games投資了數據湖。科諾瓦爾說:“這不僅使我們能夠存儲大量的非結構化數據,還能高效地對其進行查詢和分析,為我們的數據科學家和開發人員提供對所需信息的即時訪問。”
為GenAI提供動力
分析和執行總監杰西·哈里奧特表示,員工識別和體驗軟件提供商WorkHuman正在其基于云的平臺上以多種方式利用非結構化數據。
哈里奧特說:“非結構化數據是最普遍的數據形式,但也是最難有效使用的。”
工作人員云包含來自世界各地員工的數百萬條認可信息,分享對同事的積極反饋。
哈里奧特說:“他們用自己的話做這件事,所以每個識別時刻都是獨一無二的。我們使用這些數據來支持人工智能模型,幫助公司更好地定義員工如何在他們的企業中協作,哪些話題在消息中出現得最頻繁,以及整個企業的表彰獎勵是否公平。”
該公司還使用大型語言模型來總結隨著時間的推移的識別趨勢,并為有效的識別消息建議語言。
哈里奧特說:“我特別自豪的一項倡議是我們的工具包含顧問,這是一個基于即時人工智能的指導工具,它在將獎項語言發送給獲獎者之前,識別并建議對無意識偏見的糾正。”
從非結構化數據中獲取價值的最大挑戰之一是,對于企業關注的業務用例,對可靠有效的培訓數據的訪問受到限制。
“你可以擁有大量的非結構化數據,但如果沒有有效的訓練數據來創建和驗證模型,進度和質量將受到影響,”哈里奧特說,“利用LLM當然可以在這方面有所幫助,但現有LLM無法有效地捕獲許多業務用例。”
此外,哈里奧特說:“在LLM中,培訓數據中仍然可能存在偏見的問題。”WorkHuman有一個語言團隊,負責數據注釋、增強和驗證,以處理其中的一些問題。“我們還與我們的大型跨國客戶合作,以確保模型產生有意義和有用的結果。”哈里奧特說。
將非結構化數據轉化為價值的一些提示
Harriott、Konoval和其他數據專家就如何在處理非結構化數據時確保成功提供了建議。
1.將計劃與業務成果聯系起來。Harriott說,IT領導者應該確保利用非結構化數據的計劃與業務需求緊密結合,并得到高管的支持。
哈里奧特說:“通常情況下,一個團隊可能對非結構化數據有一個創造性的用例,但與關鍵業務結果的聯系對其他人來說并不明顯,可能會失去支持。領導者有責任讓企業了解為什么用例很重要,以及它如何直接或間接地推動業務利益。”
2.認清這段旅程。此外,數據領導者應該在達到計劃里程碑時設置并慶祝它們,特別是考慮到使用非結構化數據創造價值的挑戰是多么困難。
哈里奧特說:“讓非結構化數據具有可操作性可能需要比企業預期更多的時間和精力。通過承認里程碑,領導者讓其他利益相關者了解正在取得的進展,并確保他們的團隊成員對他們為使非結構化數據可操作所做的努力感到贊賞。”
3.質量是第一要務,成功的另一個關鍵是確定數據質量的優先順序。
科諾瓦爾說:“諺語‘垃圾進來,垃圾出來’再合適不過了。 “在沒有確保數據質量的情況下進行分析可能會適得其反,我們一直采取這樣的做法:清理數據,刪除不必要的數據,并確保其符合質量標準。”
科諾瓦爾說,在游戲行業,“錯誤的決策可能會導致昂貴的功能開發,玩家可能不會與之產生共鳴,更糟糕的是,錯誤可能會玷污我們的聲譽。我們嚴格的數據治理框架確保了我們的分析基礎堅如磐石。”
4.將可行動的與信息性的分開。確定業務用戶可以對其采取行動的數據的優先順序也至關重要。主機托管和數據服務提供商數據庫的首席運營官喬·米納里克表示:“重要的是數據量,并能夠分析哪些是可操作的,哪些是有用的。”
為了強調這一點的重要性,米納里克舉了一個使用非結構化數據進行系統監控的例子。他說:“必須優先考慮和迅速解決可行的方面。由于系統的許多方面都受到監視,因此單個問題可能會從下游設備生成警報和信息,從而導致需要篩選過多的警報、警報和信息,以確定真正需要解決的單個方面。”
5.充分利用人工智能。繼續他的例子,米納里克指出了人工智能和機器學習在分析隨時間推移的非結構化數據流方面所發揮的寶貴作用。“它可以幫助你建立系統關聯,”他說,“這讓你可以放下雜音,立即解決問題的根源。”
例如,企業可以部署命名實體識別(NER),這是自然語言處理(NLP)的一個組件,它側重于識別非結構化文本中的命名實體并對其進行分類,并使用諸如“Person”、“Organization”或“Location”等標簽。
米納里克說:“實際上,實體識別在眾多應用中扮演著至關重要的角色。”其中包括索引和企業內容的信息檢索系統、在文本中定位答案的問答系統,以及根據識別的實體對內容進行個性化的內容推薦引擎。
“通過識別和分類命名實體,NER使數據分析師和系統工程師能夠從收集的海量數據中獲得有價值的見解。”米納里克說。
6.通過可視化確保價值。米納里克說,使非結構化數據可用的過程不會隨著分析而結束,它的最終結果是報告和傳達調查結果。
米納里克說:“報告通常包括對關鍵發現、方法和分析的影響的結構化陳述。可視化,如圖表、圖形和儀表板,有助于以可理解的格式傳達復雜的數據。可視化表示不僅有助于理解,還使利益相關者更容易識別趨勢、離群值和關鍵洞察力,確保及時做出數據驅動的決策。”
7.邊走邊監控。米納里克說,另一個有時被忽視的關鍵做法是需要持續監測和維護。他說:“現實生活中的數據是動態的、不斷演變的。持續監控和維護對于確保數據在一段時間內保持可用至關重要。”
米納里克說,關鍵是定期清理和進行質量檢查,以保持數據的準確性和可靠性。必須及時識別和糾正數據異常、不一致和重復,以防止歪曲或錯誤的分析。
8.保持團隊技能的敏銳性。最后,投資于正確技能的開發是一個很好的實踐——考慮到底層工具的不斷發展,這一努力必須持續下去。
“數據分析的世界是動態的,尤其是圍繞非結構化數據,”科諾瓦爾說,“最小的優勢,比如一支精通最新圖像識別技術和分析概念藝術的團隊,可能是一款游戲成功或失敗的區別。我們已經看到了先進技術的結果如何影響了我們游戲的故事講述和設計,從而產生了積極的反饋,增加了玩家的參與度。”
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。