【TechTarget中國原創】大數據將成為本年度的云計算。這是必然發生的結果:隨著時間的推移,企業產生的數據集已經越來越大了,這些數據包括客戶購買偏好趨勢、網站訪問和習慣、客戶審查數據等等;那么您怎樣才能把這么大量的數據整理成綜合形式呢?傳統的商業智能(BI)工具(關系型數據庫和桌面數學計算包)在處理企業這么大量的數據時已經有點不夠用了。當然,數據分析行業也有開發工具和框架,支持數據研究人員和分析師們挖掘大數據集,并能承受得了信息負載。
對于較大的公司來說,海量數據處理已經不是什么新鮮東西了。例如,Twitter和LinkedIn就處理巨大的用戶數據。這兩家公司已經各自發展形成了一套截然不同的競爭優勢,通過挖掘他們的大規模數據倉庫來識別趨勢。那么,對于中型企業的CIO該怎么辦才好呢?幸運的是,在你手邊就有可用的工具,或者更具體地說是你的業務分析師,可以支持你處理大數據,不至于貪多嚼不爛。
這些工具中有一款是免費的,基于Java的Apache Hadoop編程框架,該框架在過去一年到一年半時間里在大數據領域獲得了極大的市場。全球的行業專家和用戶們都把Hadoop稱為事實上的數據挖掘標準。縱觀現存其它大數據產品的表現,再考慮到Apache Hadoop1.0版是在2011年11月底才發布的這一事實,Hadoop獲得這樣的認可確實令人驚訝。Hadoop是如此流行,以至于Hortonworks公司CEO Eric Baldeschwieler預測在2017年它將處理全世界數據的半數之多。機會非常好,在接下來的這一年,Hadoop將會以某種方式靠近您的組織的幾率非常大。
Hadoop主要面向開發人員。其主要框架MapReduce支持編程者處理分布式計算機群的大規模數據量。缺點是它是非常重型的產品。而且,Hadoop可以把直接操作數據倉庫的技術人群與數據消費人群和數據翻譯員區分開來。
考慮到中型企業CIO的預算限制,下面有一些建議可以幫助克服海量數據的挑戰:
不要忽略了趨勢。大數據不會消失,不能忽略大塊數據分析轉換能力和分析數據趨勢。花一些時間理解Hadoop以及其它大數據產品的功能和結構。思考一下你擁有數據的方式可以為你的公司帶來改善。
為合格的數據科學家尋找預算空間。這些人是您BI交響曲的打擊樂器。市場上合格的數據科學家非常緊缺。甚至在去年11月份的Hadoop世界大會上,培訓也成為了一個很大的話題。要使用你培訓預算的自由額度聘請最好的人員,保持他們的數據分析技能是頂尖的。
理解大量數據集的存儲提示。大數據其實是從多個地方和多個數據庫以近乎實時的速度挖掘海量數據,而不會受到結構的障礙。這就使得你基礎設施中的存儲工作方式更加復雜了。對于這些奴表,云存儲可能會更靈活和敏捷嗎?要與你的數據挖掘策略團隊一起,使其優先理解利用Hadoop處理能力的存儲需求類型和數量。
準備好使用Hadoop的工具集。理解微軟公司在這個領域的登場,試驗一下Hadoop-Excel和Hadoop-SQL Server集成看看你能交付什么類型的結果。也要了解一下IBM公司的工具,看哪一款更適合您在桌面和終端用戶軟件方面的現有投入。
大數據的角逐已經開始了??赡茉跀祿诰蜃兏镏心阋呀浡浜罅?。忽略數據分析大勢的CIO們實際上是在拿自己的職業冒險。然而,對于已經跳入大數據領域并提取關鍵見解的CIO們,全世界都將在他們的掌握之中。