盡管現如今的企業對于大數據項目充滿了熱情,但究竟有多少關于大數據的探討最終變成了實際執行的大數據項目呢?到底是哪些因素阻礙了企業對于大數據項目的實施呢?為了找出企業迄今沒有對于這一時下炙手可熱的技術做出實質性進展的原因,計算機世界網站從今年5月開始在香港地區展開了一項調查。
該項調查的重點是基于用戶對于大數據的“三大特性”(數據量、種類、輸入和處理速度)的態度進行的采訪,這三大特性定義了大數據。截至到七月,有140多名香港地區的IT專業人士參與了這項仍在進行中的調查。
大數據項目從討論到正式部署
首先統計的是受訪者所在企業目前的狀態和對大數據采用的計劃。調查結果顯示,采用率很低,僅有五分之一的受訪專業人士表示,他們的企業目前正在使用大數據技術進行生產,另外,有9.7%的機構計劃在未來12個月內實施大數據項目。
但也有40.3%的IT專業人士表示,他們所在的企業沒有任何實施大數據項目的計劃。而表示不確定的受訪者也占到了29.5%的比例。
對于該項新興技術采用的趨勢和態度不同的企業各有不同:大多數企業往往對這項新技術持懷疑、等待和觀望的態度。但是,這項調研也顯示了香港地區的大多數IT專業人士都對他們所在的企業實施大數據計劃的態度是十分鮮明的:它們要么非常積極的贊成該技術,要么直接持拒絕態度,并沒有留下一點持懷疑態度的空間。
大數據項目的驅動因素和其所面臨的挑戰
為了更好的了解市場對于該技術的熱情和接受程度,我們讓受訪者基于他們對于大數據三大特性的印象對大數據的益處進行了評價。
大數據的收集和分析大量數據的能力獲得最高評價,有47%受訪者將這一特性評為最重要的益處。評價第二的是:處理各種數據格式的能力。大數據技術傳遞速度和性能分析是排名最低,只有23.9%的IT專業人士認為該特性是其最重要的益處。
調查顯示,關于實施大數據項目所面臨的挑戰:數據集成工具較差,數據質量差,缺乏數據架構和混亂的數據所有權位列受訪者們調查結果的前四名。
在這四大因素中,前三名的挑戰與技術不成熟和數據管理有關。盡管這些問題都是相當麻煩的,但他們主要是與技術相關的問題,通常是容易解決的。
好消息是,更為復雜的挑戰問題,諸如開發商業案例或企業內部文化沖突的排名很低。這一發現表明,企業用戶均普遍意識到大數據的益處,今后在員工教育和說服用戶方面的不用花費大量的資金投資了。
數據量與種類
除了研究企業部署大數據項目的動機和面臨的挑戰,本次調查還進一步的研究的大數據的“三大特性”,以了解進行大數據管理的需求和期望。
在香港,被企業視為大數據的數據量標準與全球標準是持平的。大約三分之二的本地IT專業人士認為,大數據的數據量將至少要在10TB以上,接近20%的受訪者不是,超過100TB的數據量才能被認為是大數據。
根據維基百科介紹,決定大數據大小的指標永遠在變,截至2012年,大數據中的數據集可以由幾十兆字節至數拍字節的數據組成。這指標不固定是因為傳統數據庫管理系統以至NoSQL等新型數據庫,它們的科技和處理大容量數據的能力不斷在改進。
隨著技術的進步,企業的數據量還將繼續增加。除了針對數據量的調查,本次調研還試圖量化數據的性質對于促進大數據增長的作用。調查采訪了受訪者們兩個單獨的問題:不同類型的數據所產生的數據量,以及可能導致大數據分析的數據類型。
調查顯示,目前正在大規模產生的海量數據預計也將用于大數據分析。IT專業受訪者們表示,目前產生最大數據量的來源為結構化的事務處理數據和電子郵件數據,分類占到數據量的62.7%和53%。這兩大數據來源所產生的數據也是可用于大數據分析的最流行的兩種數據類型。
后起之秀:社會化媒體內容
鑒于大多數IT用戶將能夠處理大量數據的能力作為大數據最為重要的益處。大容量的數據類型就更可能被用于先進的分析了。
然而,也有例外的情況發生。社會化媒體內容即是如此。相對而言,僅有較少的企業表示,社交媒體正在產生大量的數據信息,但是社會媒體的數據信息則占到了大數據分析很高的權重。
雖然從社會媒體所產生的數據量是巨大的,大多數企業尚未開始捕獲并分析這些數據集。隨著社會媒體流動性和影響力的繼續增加,更多的企業將轉向這方面平臺的洞察,屆時大數據技術有望在這個過程中發揮關鍵性的作用。相同的動機驅動因素在利用大數據來分析數字豐富的數字媒體,如視頻、音頻、圖像方面占到的比例更高。
分析當前和未來的狀況
該調查還研究了不同類型的業務在當前所支持和采用的先進的分析方法,并預計其將在未來的發展趨勢。
頂級商務功能方面,目前正在采用和執行的高級分析包括:業務報告,規劃和預測和預算,這幾項在未來先進的分析性能預測中排名很低。
調查表明,目前的分析主要用于執行操作的角色。更具戰略性的業務功能,如戰略管理,利潤模型,企業績效管理和研發,預計在未來的先進分析應用中將占主導地位。
這一發現表明,香港地區的企業非常了解大數據分析的戰略價值。先進的分析方法是將從當前的業務支持更多轉向發揮戰略方面的作用。隨著企業對于更大量數據和更多類型數據的收集的增加,以及分析模型演進,預計企業將在未來利用大數據分析進行戰略決策。
輸入和處理速度仍然很重要
盡管受訪者對于數據分析速度的排名較低,但其性能似乎對本地企業來說仍然是一個問題。
該調研調查了受訪者們關于查詢分析結果的最佳時間。雖然大多數的IT受訪者表示可以為結果等待一分鐘的時間,超過三分之一的受訪者則希望能夠在不到10秒的時間內就得到分析結果,以滿足其業務需要。
這一發現表明,輸入和處理速度、以及數據量的問題將對企業的IT部門及其處理進程提出相應的要求。如果數據結構和IT基礎設施還沒有準備好能夠在10秒內處理并分析100TB的數據,一些IT用戶則表示這是無法接受的。
調查結果表明,大多數IT用戶關心的是現有的信息基礎設施所采集的大數據的狀態。對于數據結構和IT基礎設施缺乏信心是香港企業最為關注的問題。而如果不建立這樣的信心,大數據項目的采用將很難實現。
結論
對IT基礎架構和數據架構缺乏信心妨礙了企業對于大數據項目的投資
大數據處理海量數據的能力最為重要
先進的分析將在未來發揮更具戰略性的業務功能