多虧了大數據和云計算,可以讓企業使用超級計算機的力量。而人們面臨的問題是用來分析和應用大數據的工具通常有一個致命的缺陷。人們進行的大部分數據分析都是基于錯誤的模型,這意味著錯誤是不可避免的。當人們夸大的期望超過其能力時,后果可能是可怕的。
如果大數據不是如此巨大,這不會是一個問題。考慮到人們擁有的數據量,有時甚至可以使用有缺陷的模型來產生有用的結果。這里的問題是人們經常把結果與全知混淆起來。人們對自己的技術非常迷戀,但是當模型出現故障時,它會變得非常難看,尤其是當數據產生的錯誤是相當大的時候。
大數據失敗的例子
也許最大的和最知名的大數據失敗案例是在谷歌公司的2013年流感趨勢。谷歌于2008推出這項服務,目的是預測25個國家的流感疫情。邏輯很簡單:在特定區域分析谷歌關于流感的搜索查詢。下一步是將搜索結果與該地區流感活動的歷史記錄進行比較。基于這些結果,活動水平被分為低,中,高或極端。
盡管乍一看,這似乎是一個很酷的想法,但實際上并不是這樣。在2013年流感高峰期,谷歌預測的流感的趨勢悲慘地失敗了。事實上,這個數字是驚人的140%。原因是算法有缺陷,沒有考慮到幾個因素。例如,如果人們搜索“冷”或“發燒”這樣的詞,這并不一定意味著他們正在尋找流感樣癥狀。他們可能一直在尋找季節性的疾病。對于谷歌流感趨勢不幸的是,它無法從這場災難中恢復過來,最終導致了2013年的崩潰。
大數據失敗的原因
谷歌流感趨勢的失敗并不是唯一的災難。人們不可能列出這些年來所有大數據的錯誤,然而,分析失敗是很重要的,因為可以吸取教訓,不要在功能上重復錯誤。大數據失敗的一些原因如下:
(1)缺乏數據管理和數據管理
組織往往不完全了解他們已有的數據,但他們仍然決定在此基礎上開展新的項目。缺乏關于數據處理的文檔、存儲、策略和其他程序。采用大數據咨詢公司的服務是一個好主意,這樣企業就可以為自己提供一個清晰的路線圖和指導,說明如何處理已經擁有的數據,然后才能克服大數據的挑戰。
(2)未定目標和戰略
這里有很多IT術語和營銷術語,而且在白噪聲中難以理解。此外,市場上還有很多大數據產品,選擇合適的產品真的很困難。企業在決定任何事情之前,找出實現目標所需的服務和技術非常重要。“做大數據的小數據”,這意味著企業應該在少量數據上評估其大數據架構,以確保選擇正確的產品。
(3)完全不了解
數據科學和大數據是領域知識,數學,統計專業知識和編程技能的復雜組合。然而,同時它也必須具有商業意義。通常,IT部門會做出管理層不能理解的變更,反之亦然。為了確保企業了解大數據行為對IT和業務領導者都有意義,應該在大數據項目中構建IT與業務之間的橋梁。業務人員應該深入參與大數據項目的任何階段。
(4)項目太大太快
當企業第一次開始實施大數據項目時,有很多未定義的因素,比如預算、技術、行動方式等等。當企業很早就開展一個大項目時,那么注定要失敗。相反,應該選擇一個小項目進行,并衡量成功(或缺乏)增量。這樣如果出現問題,將能夠立即注意到它,并在項目結束之前進行必要的調整。衡量企業的進步的好方法是創建概念的原型或證明來驗證其所完成的工作。如果項目早期存在缺陷,推進項目的下一階段就沒有意義了。
(5)缺乏IT人才
企業找到和雇用所需要的人才來成功完成一個項目是一項艱巨的任務,但處理企業數據的工作人員是整個項目的重要組成部分。而且,他們必須精通新技術,這對于快節奏的IT環境來說是一個挑戰。
從上面的列表中,人們注意到的一個共同的主題是,無論想要關注數據多少,人們總是受到阻礙。即使人們想要數據來決定決策過程,人們最終還是要管理大數據流程。這包括做出基本決定,例如收集和保存哪些數據,以及從大數據中尋找哪些答案。
通過迭代創新
當決定進行大數據項目時,許多組織感到束手無策,這就是為什么采用迭代方法處理大數據至關重要。組織應該嘗試設法讓員工自由地嘗試數據。事實上,最重要的大數據技術是開源的,這個“開始小,失敗快”的方法得到了加強。而且,很多平臺可以立即以經濟實惠的方式訪問云服務,從而進一步降低了試用和錯誤的方法。
大數據就是要問正確的問題,所以依靠現有的員工是至關重要的。但是,即使擁有較高的領域知識,組織也不會糾正必要的數據,從一開始就不會提出正確的問題。這種失敗應該被接受和期待。
由于企業的大數據項目的早期階段可以制定或顛覆整個事情,這就是聽從大數據咨詢公司的建議可以獲得真正回報的地方。他們可以為企業建議如何創建概念的原型和驗證,進行基準測試,幫助創建微服務架構,并幫助企業遷移到新技術。采用靈活的開放式數據基礎設施是非常重要的,這種基礎設施可以讓員工不斷修改和完善他們的方法,直到他們獲得成果。這樣,組織就可以消除恐懼,可以迭代有效地利用大數據。