熟悉大數據的人一定不會對大名鼎鼎的Hadoop工具陌生,Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。這核心的兩點為其成為數據挖掘平臺打下基礎。
Hadoop為企業帶來什么?
隨著主存儲器成本的不斷下降,和過去相比,公司可以將更多的數據存到存儲器中。并且,將多臺計算機連到服務器集群也變得更容易了。大數據時代的來臨,讓數據挖掘也變得越來越重要。Hadoop得以在大數據處理應用中廣泛應用得益于其自身在數據提取、變形和加載(ETL)方面上的天然優勢。
大數據時代
而對于企業來說,要想讓大數據變為智能數據,首先要將這個“龐然大物”抽絲剝繭,也即數據挖掘。在這方面Hadoop平臺真是強項,這也是眾多企業在大數據領域使用Hadoop的原因。之所以選擇Hadoop,是因為它給企業帶來了價值。具體來講,又有哪些方面呢?
第一,Hadoop具有成熟的生態圈
成熟的生態圈代表的未來的發展方向,代表著美好的市場前景,成熟的方案和系統可以讓公司或者企業節省大量探索的時間與經歷。
Hadoop原本來自于谷歌一款名為MapReduce的編程模型包。谷歌的MapReduce框架可以把一個應用程序分解為許多并行計算指令,跨大量的計算節點運行非常巨大的數據集。使用該框架的一個典型例子就是在網絡數據上運行的搜索算法。Hadoop最初只與網頁索引有關,如今它已經迅速發展成為分析大數據的領先平臺。
第二,成本低
企業項目投資一直需要考慮投入和產出的問題:有效控制成本,可以從另一個方面擴大收益。
在軟件層面,與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
在硬件層面,Hadoop是架構在廉價的硬件服務器上,不需要非常昂貴的硬件做支撐,隨之而來,其維護的成本也會降低。
第三,高效性
國內外的企業都在收集大量的數據資料,當數據量達到一個量級之后,其處理會變得十分困難,這真是數據挖掘的用武之地。Hadoop正是為了解決了這樣的問題而誕生的。其底層的分布式文件系統具有高拓展性,通過數據冗余保證數據不丟失和提交計算效率,同時可以存儲各種格式的數據。
另外,Hadoop還支持多種計算框架,既可以進行離線計算也可以進行在線實時計算。
第四,低風險
Hadoop可以迅速監測異常風險,并在數據層放置自動化解決方案,可以最大程度地預防和避免風險事件的發生。
另外,Hadoop有著比較高的容錯率,Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。