可能目前所有的技術都涉及到大數據,但這并不意味著大數據是絕對可靠的。在許多情況下,大數據曾造成過嚴重事故,但事故的確切原因并不總是很清楚。可能是檢測到錯誤報告、技術故障、缺乏工具、數據不完整、數據不正確甚至是不必要的數據。
毫無疑問,如果有上述提到的錯誤,那最終結果將會與期望值完全不同。更糟糕的是,結果有時可能沒有被分析,導致一系列嚴重的后果。
大數據的缺陷
由于大數據和云的存在,超級計算機才為任何人所用。然而,我們用來分析和應用海量信息的這一工具通常都有一個致命的缺陷。大部分數據分析都是基于錯誤的模型,因此錯誤是不可避免的。
問題的起因就是大數據太“大”了。考慮到我們擁有的數據量,有時甚至使用有缺陷的模型來產生有用的結果。有時侯對自己的技術過于自負,當模型出現故障時,結果就會變得非常難看。
大數據失敗案例
Google在2008年推出了大數據這項服務,目的是要預測25個國家的流感疫情。邏輯很簡單:分析谷歌在特定地區的流感搜索查詢。將搜索結果與該地區流感活動的歷史記錄進行比較。基于這些結果,活動水平被分為低、中、高或極高。
乍一看,這似乎是一個很合理的想法,但實際上并不是這樣。在2013年流感高峰期,Google的流感分析一塌糊涂。原因是算法有缺陷,沒有考慮到幾個因素。例如,如果搜索“冷”或“發燒”這類詞,并不一定意味著搜索人正在找流感癥狀。Google無法從這場災難般的失誤中恢復過來,最終導致了這個項目在2013年崩潰了。
大數據失敗的原因
迄今為止,谷歌流感趨勢項目并不是唯一失敗的。我們需要吸取教訓,不要重蹈覆轍。以下是導致大數據失敗的一些原因:
1. 缺乏數據調配和數據管理
通常情況下,組織往往不完全了解他們已有的數據,但仍然決定在此基礎上開展新的項目。缺乏關于數據處理的文檔、存儲、策略和其他的程序。這種情況下,大數據咨詢公司可以為您的企業提供一個清晰的路線圖和指導,說明應該如何處理您已經擁有的數據,這才是正確戰勝大數據的第一步。
2. 未定目標和戰略
有太多難以理解的IT術語和營銷術語,此外,市場上有太多大數據產品,選擇合適的產品很困難。在做任何決定之前,找出實現目標所需的服務和技術非常重要。“在大數據上做小數據”,意思是應該在少量數據上評估您的大數據架構,以確保選擇正確的產品。
3. 溝通很重要
數據科學和大數據是領域知識、數學、統計專業知識和編程技能的復雜組合。然而,同時它也必須具有商業意義。通常IT部門和管理層不能理解彼此作出的的變更。為了確保您的大數據對IT和業務領導者都有意義,在項目中確保IT人員與業務人員之間保持良好的溝通。
太大太快
當您第一次開始執行大數據項目時,會有很多未定義的因素,比如預算、技術、路線等等。選擇一個小項目,并測量成功的幾率。基準測試進展的一個好方法是創建原型或驗證概念來驗證您已經完成的工作。如果早期階段存在缺陷,那么推進到項目的下一個階段是沒有意義的。
缺乏IT人才
執行項目的人必須精通新技術,這對于快節奏的IT環境來說是一個挑戰。
通過迭代來創新
許多組織在決定之行大數據項目時會感到束手無策,這就是為什么采用迭代方法處理大數據至關重要。組織應該嘗試設法讓員工自由進行數據實驗。最重要的大數據技術是開源的,而且,很多平臺也可以作為云服務提供便利,從而進一步降低了失敗的機率。