大數據是一個含糊的術語。因此,企業用戶應該了解其含義,必須理解大數據實際上能做什么及其局限性是什么。在繪制大數據戰略藍圖的時候,提出一些恰當的問題保證企業能夠得到有用的信息是非常重要的。
企業擔心落在競爭對手的后面和利用大數據實現各種業務目標的同行的后面。但是,在被大浪卷走之前,你要后退一步并且考慮五個問題以保證你走上正確的道路。
1、你的問題是什么?
這似乎是一個顯而易見的問題。但是,感受到壓力要成為數據驅動的企業的那些公司也許會冒進,不首先恰當地定義問題(或者機會)。你是不能把你需要的數據放入excel表格的商務分析師嗎?你首先不能訪問你的公司的大數據嗎?你是負責減少查詢返回的等待時間的首席信息官嗎?你是對查詢結果需要等待數天或者數星期感到厭煩的非技術用戶嗎?你的數據是結構化的還是非結構化的?還是擁有上述所有問題?
當然,你可能面對的問題之一是預算,特別是在創業企業和中小企業中。數據倉庫和專用硬件的價格讓他們望而卻步。如果可承受性是一個問題,你要根據在商品化硬件上運行的軟件制定一個戰略,不需要數據倉庫。
2、你為免費(開源)軟件支付的價格是什么?
圍繞hadoop一直有許多爭論。雖然hadoop對于某些企業需求來說是一個非常好的開源軟件解決方案,但是,免費并不意味著不支付任何費用。hadoop在商品化硬件上運行。由于它需要電源和網絡連接,這就需要投資。
核心的hadoop發布版是免費的開源軟件。但是,有些廠商有專有的hadoop發布版。即使開源軟件發布版也有專有的插件管理工具。除非你從apache軟件基金會下載hadoop組件,否則,你會像使用商業軟件一樣遇到同樣的軟件許可證和廠商鎖定等令人擔心的問題。
我們不要忘記部署和管理這個技術所需要的數據科學家的工資。如果你有足夠的資金支付it和硬件費用,hadoop也許對你非常合適。但是,hadoop并非適用于一切需求。這就引出了下一個問題。
3、規模重要嗎?(你的企業規模和你的數據的規模)
圍繞大數據的談話主要是pb級的數據。然而,大多數企業使用的數據僅達到tb級。當在tb級的范圍內工作的時候,大型機器集群的開銷也許不能得到投資回報。你會發現那個遺留的解決方案對于你的企業需求也許規模太大,是不必要的。
如果是在tb級范圍內,你就是在使用一臺服務器的范圍之內。你可以使用一臺服務的解決方案,從而降低成本和簡化。僅僅在10年前,一臺服務器只能處理gb級的數據。但是,現在的商品化硬件已經能夠處理tb級的數據,從而提供了以前不能提供的選擇范圍。
4、你的數據在哪里?
你的大多數數據是在企業內部的,你的策略與大多數數據在云中的企業有所不同。例如,如果你的數據在亞馬遜或者rackspace的云服務中,那么,在那個框架中運行大數據解決方案是有意義的,因為數據很容易在那個環境中遷移。然而,如果你的大多數數據在企業內部并且你正在考慮在云中運行你的大數據查詢,你要三思。大數據是很難遷移并且保持同步的。當上載到云的時候會有許多挑戰。在這種情況下,大數據最好保持在企業內部的環境中。
5、各種技術有什么區別?
目前有三種類型的技術用于大數據分析:軟件數據庫設備、硬件數據庫設備和分布式數據庫。
軟件數據庫設備部署在商品化硬件上,一般部署在一臺計算機上,因此,價格便宜,結構簡單。這種設備的例子包括sql服務器或者mysql等關系數據庫以及sisense的elasticube技術。
硬件數據庫設備包括與專有硬件(也就是價格昂貴的硬件)捆綁銷售的專有軟件。專有硬件的技術規格比商品化硬件更強大,因此價格可以高50倍。
分布式數據庫是指部署在計算機集群中的軟件,可以平行運行資源密集型的處理操作。這包括復雜的架構。
你可能遇到的其它技術都是不能直接處理大數據的規模較小的技術,如內存處理或者聯機分析處理(olap,on line analytical processing)。上載到這些數據中心技術的數據在上載之前要顯著刪減,一般采用上述的一種大數據技術。