大數據管理現在已經成為企業開發社區中的一大熱門話題。但為什么大數據的討論成為一種現象會為這么晚?為什么過去大數據處理沒有成為企業工具集的一部分,是不是現在的信息技術生態系統使得大數據解決方案變得如此的明智。
大數據管理如此流行的一個關鍵原因是,無需言明,多數組織不得不對處理日益增長的數據進行管理。從互聯網搜索引擎,到龐大信息量的檢索,再到基因科學或大氣科學的研究項目,人們關注并嘗試的數據量變得越來越龐大。曾經兆字節數據的處理就是很驚人的期望,但與現在組織面臨的千萬兆字節相比,就變得蒼白無力了。
處理能力是關鍵。一方面它要有能力存儲巨大量的數據;另一方面它要能夠進行處理。畢竟,如果它不能挖掘出來,但用什么來存儲數據?談到數據挖掘,我們講的心比挖掘煤礦還快的速度處理數據。如果我們不能在合理的時間內,從數據中找到有意義信息,那么它就是無用的。
現在,管理大數據非常可行,因為處理能力可以負擔得起。過去,財富500強公司需要稀釋他們的股份和發行更多普通股,為了能夠購買多元處理器,這樣就能夠存儲兆兆字節的數據。但是現在一個小學生,用他的零用錢就可以買到等價處理能力的處理器。
另外,確實沒有和過去一樣的需求,需要出去從像Oracle和IBM那樣的公司中,購買大的硬件和令人印象深刻的工作站。而一個明智的IT部分可以從網上輕而易舉的購買到上百個主板和多核處理器,并以歷史上最低價從臺灣直接裝運過來。改道開源軟件可以用來把各種各樣的主板、處理器編成組,而國產的處理能力可以以千兆位字節吞噬掉非結構化的數據。
伴隨著處理能力,免費軟件也有能力強化了大數據運動。HBase之類的工具可以用把大數據存儲在單一數據庫表中,或海量數據庫表中,海量數據庫表可以擴展出數十億的行和數以百萬的列。從那里,如果你有興趣挖掘你HBase數據,Hadoop可以幫助你處理那些海量數據集,并理解其不斷積累的信息。
“如果想得到特殊的東西,你可以訪問,你可以訪問HBase領域的數據;但如果想獲得關于分析的一些數據,比如說,你希望在數十億的記錄中,找到出某個星球的平均年齡,那么你可以使用Hadoop.”Java之父,James Gosling說。“它最終會非常快速并且非常高效。”
累積的大量數據池、處理能力的負擔能力和專業化軟件的可用性,這三大理由不僅使“大數據”成為互聯網的一個敏銳話題,也成為了管理信息的一個可行方法。結合了廉價的處理能力,并且能夠免費的下載,通過像Hadoop和HBase這樣的開源軟件解決方案,企業架構師們有更新,更有效的工具來處理在大數據了。隨著越來越多的公司從一系列不同的出入中,收集了更多的信息,使得大數據處理能力達到前所未有的巔峰。