從數據關注到人員需求再到技術組合,數據分析的錯誤概念比比皆是。下面讓我們以真誠的目光看看如何利用數據科學來提供真正的業務成果。
在IT界,炒作越大,誤解就越大,數據分析也不例外。分析是當今信息技術最熱門的方面之一,它可以帶來顯著的業務收益,但是誤解可能會妨礙分析功能的順利和及時的交付,而這些功能這可能會使業務用戶和最終客戶受益。
隨著組織創建或擴展其分析策略,下面來看看十幾個他們可能要避免的誤區。
誤區一:數據分析需要大量投資
現在看來,每一項技術努力都必須通過一個確保經濟穩健性的過濾器。IT和業務經理們提出啟動項目或部署新工具時,首先會提出的問題之一是“這要花費多少錢”?
有些人認為數據分析本質上是一項昂貴的工作,因此它僅限于預算較大或內部資源較多的組織。但并非所有的數據分析工作都需要大量的投資,移動和在線房地產服務提供商Trulia的工程副總裁Deep Varma這樣說道。
Varma說:“現在市場上有這么多的開源以及其它工具可以幫助你開始展示數據分析的價值。你需要對內部數據存儲以及你要解決的問題有一個很好的理解。在嘗試用分析解決業務問題時,云使之變得更簡單。”
現代分析“是基于云系統和大數據架構的,從定義上來說它們比傳統的數據倉庫系統要便宜得多”,安永咨詢公司的全球分析領導者Beatriz SanzSaiz補充道。
Saiz說:“另外,通常用數據和分析實現三個結果:提高流程效率、收入增長和主動風險管理。總而言之,數據和分析的應用為所有公司帶來重大的成本收益。”
誤區二:你需要大數據來執行分析
對于很多人來說,大數據和分析的概念是齊頭并進的。這個想法是,組織需要在執行分析之前收集大量數據,以便產生業務洞察,改進決策制定等。
當然,大數據分析的好處已為大家所接受,擁有這些資源的公司確實可以通過利用其數據存儲作為分析工作的一部分來獲得顯著的競爭優勢。但是,大數據是分析必不可少的想法是不正確的。
人力資源公司Allegis Global Solutions的商業智能執行總監Tim Johnson說:“人們經常試圖采集盡可能多的數據;他們一聽到‘大數據’就興奮不已。這個誤解就是數據越多越好,機器會分門別類。”
但是,與其說分析師需要更多的數據,不如說他們需要具體的數據。Johnson說:“95%的用戶正在尋找與他們的工作相關的信息,并支持決策和提高性能。企業與其關注更多的數據,不如多為業務用戶著想,不僅要確定他們需要訪問哪些數據,而且還要確定如何展示數據。
Johnson說:“提供對各種信息和多種格式的訪問可能是巨大的挑戰,并且實際上阻礙了采用。相反,找出對它們來說很重要的事情,以及如何以最簡單的形式向他們展示這些信息。”
誤區三:分析可以消除人為偏差
自動化系統執行的方式是不應該帶有偏差的。但技術是由人類建立的,所以消除所有的偏差幾乎是不可能的。有人認為分析和機器學習可以消除人為偏差。
全球技術咨詢公司ThoughtWorks的技術負責人Mike Mason說:“不幸的是,這根本不是真的。算法和分析使用‘訓練數據’進行調整,并將重現訓練數據的任何特征。”
Mason說在某些情況下,這會給分析結果帶來偏見;在其它情況下,結果可能會更糟,他說:“‘僅僅因為算法這么說’并不意味著答案是公平的或有用的。”
誤區四:最好的算法總是能贏
事實上,有了足夠的數據,“有時候算法并不重要,”Mason如是說。他在IEEE的一篇文章中引用了“數據的不合理有效性”,谷歌的工程師認為,簡單的統計模型,加上大量的數據,比包含很多特性和摘要的“智能優越”模型取得更好的結果。
Mason說:“在某些情況下,僅僅處理大量的數據就能取得最好的結果。”
誤區五:算法能確保安全
Johnson說,人們固有的信任統計模型和算法在很大程度上是隨著組織建立他們的分析程序而逐漸依賴復雜的模型來支持決策。
Johnson說:“因為人們不了解模型、算法和其它先進的數據科學實踐,所以他們信任它們。用戶不覺得自己具備可以挑戰模型的知識,相反,他們必須相信建造它們的“聰明人”。
Johnson說:“在過去的50到60年里,我們聽說過人工智能將在20年內接管人類的工作,而且我們將繼續聽到人們這樣說。在我們能夠公然地相信機器學習和結果之前,還有很多事情要做。在那之前,我們需要挑戰構建算法和模型的人,以解釋如何得出答案。我們不是不能依賴結果,而是需要透明度,以便我們可以信任和驗證分析。”
誤區六:數據科學是一種神秘的“魔法”
數據科學近年來受到了很多關注,關于它究竟是什么有時會產生混淆。它主要涉及使用算法來查找數據中的模式。
數據存儲公司Micron的首席技術官 Trevor Schulze說:“數據科學似乎很神秘,因為這些算法能夠分析更多人腦更所無法理解的變量和數據集。”
Schulze說:“近年來,隨著計算能力和內存的增大,我們現在能夠快速解決十年前用任何技術解決不了的問題。數據科學是統計推斷技術的自然演變,數十年來已經得到很好的理解。一旦你理解了數學,數據科學就沒有那么神秘了。”
誤區七:為了做更多的數據科學,你需要更多的數據科學家
數據科學家是當今所有技術專業人員中最緊俏的。如果他們把精力轉移到應該做的事情上,也許組織就不需要這么多這樣的專業人士。
Mason說:“很多數據科學家的時間花在了非增值活動上,比如尋找數據集、把數據放到可以處理它們的地方、以及轉換和清理數據”。鑒于聘請數據科學家是這么地困難,那些低價值的任務并不是你想要的。
Mason說:“優步的米開朗琪羅平臺(Michelangelo platform)使數據科學家能夠專注于特性工程、提取和分析,而不是將數據搬來搬去,因此使他們可以大大提高生產力。”
誤區八:分析太耗時
現在快速完成工作——無論是將產品或服務推向市場,還是近乎實時地響應客戶詢問——對于公司來說都是一個巨大的競爭考慮因素。分析聽起來像是需要很長時間來執行的事情,與達到速度和靈活性的目標背道而馳。
Saiz說:“這種類型的項目耗時太長,而且相當復雜,這個迷思依然存在。在一天結束的時候,這都是關于人才的。通過恰當的技能組合和敏捷方法的應用,大問題可以在幾天或幾周內得到解決,而不是幾個月。”
誤區九:技術是最難的部分
咨詢公司ISG的IT采購和數字咨詢服務總監James Burke說,隨著當今可用的技術的數量不斷增加,選擇合適的工具組合來部署和集成以從分析團隊獲得預期的結果并非易事。
但是,Burke說真正困難的部分是“把組織結構和運營模式放在一起,把人員、流程和技術視角所需要的所有東西放在一起。另外,你如何在現有的組織內部或者‘附近’這樣做,這對組織來說似乎是最難的。”
不要以為分析工具會完成所有的工作。咨詢公司West Monroe的技術實踐高級總監Greg Layok說:“技術本身決不會解決任何業務問題。在急于創建數據湖的過程中,組織最終卻陷入了沼澤,或者是一個難以讓任何人弄明白的信息困境。”
Layok說技術并不解決分析問題。他說:“首先,發現一個業務問題,然后問,'我需要哪些數據來解決這個問題?'這將幫助你發現組織內的數據缺口。”
誤區十:數據分析應該是一個獨立的部門
在一些組織中,數據分析本身是作為一個部門運作的,而在另一些組織中則深深嵌入到一個跨職能團隊中,咨詢和數據收集公司Delvinia的總裁兼首席創新官Steven Mast這樣說道。
Mast說:“但是,隨著所有業務領域的數據大量涌現和變革發生的速度,部門模式不起作用了。隨著企業變得更加以客戶為中心,數據驅動的分析專家應該成為業務部門的核心,而不是作為一個呼叫支持的部門來運行。”
Mast說當今很多組織面臨的復雜問題都在業務部門內部,而且這些問題的很多解決方案都隱藏在數據中。他說:“數據科學家和專家與這些業務部門密切合作,使用大量數據集和人工智能將是培育下一代產品,服務和客戶體驗的關鍵。”
誤區十一:分析是博士干的事情
在分析團隊中有很多受過良好教育的人是很棒的,但這不是成功的要求。
Saiz說:“公司往往認為,沒有博士學位,他們將無法進行最佳的分析。現代分析需要一系列技能——那些在新興技術和開源軟件方面精明的人。建立各懷絕技的職能,包括大數據架構師、數據工程師、數據科學家、數據可視化專家等等,才是最重要的。”
誤區十二:人工智能會破壞就業和經濟
歷史上新技術的引入已經顛覆了很多工作和行業,人們擔心人工智能會消除人們執行某些任務的需要。
Schulze說:“人工智能解決方案比人們在解決某些問題方面要好得多。“人工智能可以讀得更快,記住更多,計算復雜的數學關系比任何人都好。然而,人工智能不能處理真正新穎的情況,而這是人類擅長的地方。”
誠然,Schulze說,某些工作已經消失或者因人工智能的增長而減少,其它的工作也隨之而來。他說:“盡管如此,我們理解和解決完全無法預料的環境的能力也不會被目前所知的人工智能技術所取代。在可預見的未來,最有效的人工智能方法將是通過人工智能系統來增強人的能力,這些人工智能系統執行一些‘繁重的工作’,在這些工作中算法的表現優于人。盡管很多工作會因人工智能而發生變革,但人仍將是這個商業生態系統的重要組成部分。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。