在如此多關于大數據的炒作下,IT管理者很難知道該如何挖掘大數據的潛力。Gartner指出關于大數據的五大誤區,以幫助IT管理者制定他們的信息基礎設施戰略。
Gartner研究總監Alexander Linden表示:“大數據提供了巨大的機會,但也帶來了更大的挑戰。海量的數據并沒有解決數據固有的問題。IT管理者需要破除各種炒作,根據已知的事實和業務驅動的結果指導行動。”
誤區1:在采用大數據方面其他人都比我超前
人們對于大數據技術和服務的興趣達到了前所未有的高度,有73%的受訪企業已經投資或者計劃投資大數據。但是大多數企業機構仍然在采用大數據的初期階段,只有13%的受訪者已經部署了大數據解決方案(見圖1)。
圖1、2013年和2014年大數據采用的階段
注釋:Gartner向每位受訪者提問,“以下哪5個階段可以最好地描述你企業機構采用大數據的階段?”
2014年n = 302,2013年n = 720。來源:Gartner(2014年9月)
企業結構面臨最大的挑戰是確定如何從大數據中獲取價值,以及確定應該從哪里開始。許多企業機構卡在試點階段,因為他們沒有將技術與業務流程或者具體的使用實例聯系起來。
誤區2:我們有這么多的數據,我們并不需要擔心一個小小的數據缺陷
IT管理者認為,目前企業管理如此多的數據使得單個的數據質量問題變得微不足道,因為“大數據法則”。這個觀點認為,單個數據質量缺陷并不影響整個數據分析的結果,因為每個缺陷只是企業機構內海量數據非常小的一部分。
Gartner副總裁Ted Friedman認為:“事實上,盡管單個缺陷對于整個數據集的影響要比數據量少的時候小一些,但是因為數據更多了所有缺陷也就更多了。因此,糟糕的數據質量對于整個數據集的影響還是一樣的。除此之外企業機構在大數據背景下使用的大多數數據都是來自于外部的,或者是未知結構和未知來源的。這意味著出現數據質量問題的可能性要比以前更高,因此數據質量實際上在大數據背景下變得更為重要了。”
誤區3:大數據繼續將消除對大數據整合的需求
一般觀點認為,大數據技術——尤其是通過在用模式方法處理信息的潛力——將使得企業機構要使用多種數據模型來讀取相同的數據源。很多人相信這種靈活性將讓終端用戶確定如何按需地將各種數據集進行轉譯。他們認為,這也將提供滿足單個用戶需求的數據訪問。
在現實中,大多數信息用戶重度依賴于“在寫模式”,在這種場景下數據被描述、內容被預先描述,因此關于數據完整性以及與場景的相關性已經達成了統一。
誤區4:為高級分析使用數據倉庫是沒有意義的
很多信息管理的領導者認為,構建一個數據倉庫是消耗時間且沒有意義的,因為高級分析使用新型的數據而不僅僅是數據倉庫。
現實是,很多高級分析項目在分析過程中使用的正是數據倉庫。在其他一些情況下,信息管理人必須提煉作為大數據一部分的新數據類型,使其適合于分析。他們需要確定哪些數據是相關的,如何聚合這些數據,以及數據質量的等級,而且這種數據提煉可能是發生在很多地方的,不僅僅是數據庫。
誤區5:數據湖將取代數據倉庫
很多廠商將數據湖定義為用于分析各種來源的原始格式數據的企業數據管理平臺。
現實是,廠商將數據湖定位為數據倉庫的替代品或者作為客戶分析技術設施關鍵要素是容易引發誤導的。數據湖的基礎技術缺乏已有數據倉庫技術功能特性的成熟型和廣度。Gartner研究總監Nick Heudecker表示:“數據倉庫已經具有支持整個組織上下各種用戶的能力。信息管理者沒必要等著數據湖迎頭趕上。”