大數據的概念仍很模糊,因此企業用戶應當明白——大數據到底能夠做什么以及大數據有哪些局限性?因此,企業用戶在制定戰略時,需要弄清以下五個問題,這樣才能確保最終從信息網絡中獲得有用的信息。
1、了解你有什么問題?
這似乎是一個非常明顯的問題,不過,多數企業都有一種被“數據驅趕”的壓力,這些公司可能在未弄清手中的問題或機遇時,就開始率先追趕大數據。你是一位無法將需要的數據填入電子表格的業務分析師嗎?你無法率先獲取公司的大數據嗎?你是一位負責減少搜索等待時間的首席信息官嗎?你是一位厭倦了等待搜索結果達數日之久的非技術用戶嗎?你的數據是結構化還是非結構化的?還是你面臨著上述所有的問題?當然,你可能面臨的一個問題是“預算”,特別是對初創企業和中小型企業而言,因為數據存儲的價格及相關的硬件價格非常昂貴。
2、支付自由軟件(開放源軟件)的成本是多少?
Hadoop一直有著很多爭議。盡管其是一些企業所需的開放源解決方案,但是,自由并不意味著就不需要支付費用。Hadoop可以在一些日用硬件上運行,但這需要一些投資,例如需要消耗電能,并連接到其它一些設備上。
3、考慮規模因素(包括企業規模和數據規模)
大數據的規模動輒就以10的15次方字節來計算,但是,多數企業用戶使用兆兆字節的數據。如果在兆兆字節的范圍內工作的話,那么一大群機器所需的成本可能將難以支付。如果用戶需要兆兆字節的數據規模,那么至少將需要一臺單獨的服務器,為此,用戶需要盡可能降低成本,增強簡捷性,以便一臺服務器能夠發揮作用。
4、你的數據在哪里?
如果用戶的多數數據都是應急備用的,那么制定的戰略就應當與云數據不同。例如,如果你的數據存儲在 亞馬遜 或Rackspace的云服務之中,那么在這樣的框架內運行大數據方案將會非常有意義,因為這種數據能夠很容易在那種環境下轉移。不過,如果用戶的多數數據都是應急備用的,而且用戶還考慮在云中運行大數據,那么用戶就應當三思而后行了。大數據很難隨便移動,向云設備上傳大數據并保持同步性將會面臨很多的挑戰。
5、不同技術之間的區別是什么?
目前用于大數據分析的技術有三大類型:軟件數據庫應用方案、硬件數據庫應用方案和分發式數據庫。軟件數據庫應用方案往往部署在日常硬件上,一般都是在一臺獨立的電腦上,這樣的成本較低,而且便于構建,如果SQL server或MySQL。硬件數據庫應用方案由與硬件捆綁在一起的軟件組成。分發式數據庫主要是指部署在多臺電腦上的軟件,這種數據庫將便于用戶平行存放和處理數據,但這種數據庫結構較為復雜。