在IT業界中,炒作越多,誤解就越多,數據分析也不例外。作為當今IT技術最熱門的方向之一,數據分析可以帶來顯著的業務收益,但是帶來的誤解可能也會阻礙順利地、及時地交付可能讓業務用戶和最終客戶受益的分析能力。
隨著企業組織創建或者擴展其分析戰略,這里有十幾個需要揭穿的數據分析神話需要他們牢記在心。
神話1:數據分析需要大量投資
現在來看,幾乎每一項技術都必須經過財務穩健性的過濾。“這項技術成本多少?”這個問題是IT和業務經理們在提出啟動新項目或者開發新工具的時候,會被問到的第一個問題。
有些人認為,數據分析的本質是一項成本高昂的工作,因此僅限于那些有著充足預算或者大量內部資源的企業組織。但并非所有數據分析項目都需要大量投資,移動和在線房地產服務提供商Trulia副總裁Deep Varma這樣表示。
“現在市場上有這么多的開源工具和其他可用工具,可以幫助你開始展示數據分析的價值。你需要很好地了解你的內部數據存儲和你試圖解決哪些問題。云也讓嘗試用分析來解決業務問題變得更輕松。”
現代分析“是基于云系統和大數據架構的,從定義上看其成本不如傳統數據倉庫系統那么高,”咨詢公司EY全球分析負責人Beatriz Sanz Saiz表示。
“而且,數據和分析通常用于實現三個結果:改善流程效率、收入增長和主動風險管理。總而言之,數據和分析的應用,給任何公司帶來了重要的成本收益。”
神話2:你需要大數據來執行分析
對很多人來說,大數據和分析這兩個概念是齊頭并進的。這個想法是說,企業組織需要在執行分析之前收集大量數據,以便產生業務洞察,改進決策等。
大數據分析的某些好處已經很明確了,那些擁有資源的企業確實可以通過利用數據存儲作為分析的一部分來獲得顯著的競爭優勢。但是,大數據是分析必不可少的想法是不正確的。
人力資源公司Allegis Global Solutions商業智能執行總監Tim Johnson表示:“人們經常試圖獲取盡可能多的數據,他們聽到大數據就會興奮不已。有一個誤解就是,數據越多越好,機器會對所有這些數據進行篩選。”
但是,分析師們需要的是特定的數據,而不是更多的數據。Johnson表示:“有95%的用戶在尋求與他們工作相關的信息,來支持決策和改善業績。”但是企業組織必須考慮業務用戶來決定他們需要哪些數據,還有如何呈現這些,他們需要的不是數據越多越好。
Johnson說:“要能夠以各種方式訪問每一條信息,這有點不太可能,實際上也會阻礙信息的采用。相反,你要找出對他們最重要的信息、你如何以最簡單的形式向他們呈現這些信息。”
神話3:分析可以消除人為偏差
自動化系統執行的方式不應該是有偏見的。但是技術是由人開發的,所以消除所有的偏差幾乎是不可能的。有人認為,分析和機器學習會消除人為偏差。
“遺憾的是,這根本不是真的。我們使用‘訓練數據’來優化算法和分析,這會重新引發訓練數據所具有的特征。”
在某些情況下,這會給分析結果帶來偏差;有些情況下,則有更嚴重的偏差。Mason表示:“算法這么說,并不意味著回答是公平的或者有用的。”
神話4:最好的算法總是會勝出
事實上,有了足夠的數據,“有時候算法并不重要,”Mason表示。在他援引的一篇題為“數據的不合理有效性”的IEEE文章中,Google工程師認為,簡單的統計模型,加上非常大量的數據,可以比包含了大量特性和總結的“智能優越”模型實現更好的結果。
“在某些情況下,僅僅處理大量數據就能實現最好的結果,”Mason說。
神話5:算法是安全的
從很大程度上看,人們固有信念中是信任統計模型和算法的,隨著企業組織建立他們的分析程序,他們越來越多地依賴復雜模型來支持決策。
“因為人們不了解模型、算法和其他先進的數據科學實踐,所以人們信任這些。用戶不覺得自己具有挑戰這些模型的知識,所以他們反過來覺得必須信任建立了這些模型的‘聰明人’。”
“在過去50到60年中,我們一直聽到有關于人工智能將在未來20年內占主導的說法,我們還會繼續聽到有人這么說。在我們公然地相信機器學習及其結果之前,我們還有很多沒有涉足的領域。在那之前,我們需要向那些構建了算法和模型的人發起挑戰,解釋這些答案是怎么來的。這并不是說我們不能依靠結果,而是我們需要透明度讓我們可以信任分析、并對分析進行驗證。”
神話6:數據科學是一種神秘的“黑色藝術”
數據科學這個學科近些年來受到了很多關注,有時候會產生混淆,數據科學究竟是什么?基本上,數據科學涉及到使用算法來發現數據中的模式。
“數據科學似乎很神秘,因為這些算法能夠分析比人腦能理解的更多變量和更大的數據集,”數據存儲公司Micron首席信息官Trevor Schulze表示。
Schulze說:“近幾年隨著計算能力和內存的擴大,我們現在能夠快速解決10年前技術解決不了的問題。數據科學是統計推斷技術的自然演變。一旦你了解了數學,數據科學就沒有什么神秘的地方了。”
神話7:要做更多的數據科學,你就需要更多的數據科學家
數據科學家是當今所有技術專業人員中最迫切的人才類型。如果企業組織重新定位數據科學家的工作內容,那么用更少一點的數據科學家就可以做到同樣的事情。
“有很多數據科學家的時間是花在了非增值活動上,例如尋找數據集、把數據放在可以處理的地方、轉換和清理數據。鑒于聘請數據科學家是很困難的一件事,所以你肯定不是想讓數據科學家來做這些低價值的工作吧。”
“Uber的Michelangelo平臺讓數據科學家可以專注于功能設計、提取和分析,而不是對數據進行挖掘,這樣可以大大提高生產力。”
神話8:分析需要的時間太長
現在快速完成工作對于企業來說是一個巨大的競爭考量因素,不管這個工作是將產品或者服務推向市場,還是以接近實時的方式響應客戶詢問。分析聽起來像是需要花費很長時間,這與實現速度和靈活性的目標背道而馳。
“分析項目需要花費很長時間并且非常復雜——這個誤解仍然存在。最終,這是關于人才的問題。通過恰當的技能組合和敏捷方法的運用,大問題可以在幾天或者幾周內得到解決,而不是幾個月的時間。”
神話9:技術是最難的部分
今天可用的技術越來越多,選擇部署和集成合適的工具組合來從分析團隊那里得到預期的結果,這不是像公園里散步這么簡單的事,咨詢公司ISG的IT外包和數字咨詢服務總監James Burke表示。
真正難的部分是“把組織結構和運營模式結合到一起,把所有從人、流程、技術角度所需要的東西結合到一起。而且,你如何在現有企業組織內部或者臨近的地方做這件事情,似乎對企業來說是最難的部分。”
不要以為分析工具會完成所有工作,這一點也很重要。咨詢公司West Monroe的技術實踐高級總監Greg Layok表示:“技術本身并不會解決任何業務問題。如果企業組織急于創建數據湖的話,最終會陷入沼澤,一個其他任何人都無法了解的信息沼澤中。”
技術并不解決分析問題,Layok表示。“首先,發現一個業務問題,然后問‘我需要哪些數據來解決這個問題?’這將幫助你發現企業組織內的數據鴻溝。”
神話10:數據分析應該是一個單獨的部門
在有些企業組織內,數據分析是作為一個單獨的部門運作的,還有一些是被嵌入到了一個跨職能部門中,咨詢和數據收集公司Delvinia總裁兼首席創新關Steven Mast這樣說。
“不過,隨著數據擴展到所有業務領域,以及這一變化的快速發生,部門模式已經不起作用了。隨著企業組織變得更加以客戶為中心,數據驅動的分析專家應該成為業務部門的核心,而不是作為一個你打電話許尋求支持的部門來運作。”
今天企業組織面臨的很多復雜問題都是發生在業務部門的,這些問題的很多解決方案卻隱藏在數據中心。Mast表示:“數據科學家和數據專家正在與這些部門緊密合作,使用大型數據集和人工智能,這將成為培育下一代產品、服務和客戶體驗的關鍵。”
神話11:分析僅限于有博士學位的人
在分析團隊中有很多受過良好教育的人才是很棒的,但并不是成功的要求條件。
Saiz說:“企業往往認為,團隊中沒有博士的話他們就無法實現最佳的分析。現代分析需要融合的技能——那些精通新興技術和開源軟件的人。用擁有不同技能的人才來打造團隊,包括大數據架構師、數據工程師、數據科學家、數據可視化專家,這才能體現差異。”
神話12:人工智能會毀掉人類的工作、破壞經濟
從歷史上看,新技術的引入顛覆了就業和行業,人們擔心人工智能會消除人類執行某些任務的需求。
“人工智能解決方案在解決特定問題方面要比人類好得多,人工智能讀得更快、記得更多、計算復雜數據關系比任何人類都好。但是,人工智能不能處理新出現的情況,這是人類擅長的地方。”
可以肯定的是,人工智能的發展已經讓很多工作消失或者減少,接下來也還會有很多工作如此,“但是,我們人類理解和應對完全不可預見的環境方面不會被現有任何已知的人工智能技術所取代。對于可預見的未來,最有效的方法就是利用人工智能系統來增強人類能力,讓人工智能執行某些‘繁重任務’,這方面算法的表現是好于人類的。盡管很多工作會因人工智能而妨礙變,但是人類仍然是這個商業生態系統中的重要組成部分。”