隨著網絡、存儲和整合服務的迅猛崛起,Hadoop成為企業和擴展至更大規模的首選平臺,且對大數據批量處理已經獲得長足發展。Hadoop 是一個用于在可擴展的服務器集群上存儲和處理大量多元化數據的開源框架。Hadoop以一種可靠、高效、可伸縮的方式對大量數據進行分布式處理,且依賴于社區服務器,因此成本較低,適用于任何人或企業。
IDC調研預測,2020年全球的數據信息使用量將會增長44倍,達到35.2ZB(1ZB=10億TB)。如Facebook、Twitter、微博等新興社交平臺的海量數據,以及視頻通訊、醫療影像、地理信息和監控錄像等視頻內容也會以數十億計的極具增長,加之傳感器、RFID閱讀器、導航終端等非傳統IT設備和移動設備,都將產生非結構化數據。對于大量結構和非結構化數據,企業、個人用戶又將如何應對?或用什么來應對?
隨著網絡、存儲和整合服務的迅猛崛起,Hadoop成為企業和擴展至更大規模的首選平臺,且對大數據批量處理已經獲得長足發展。Hadoop 是一個用于在可擴展的服務器集群上存儲和處理大量多元化數據的開源框架。Hadoop以一種可靠、高效、可伸縮的方式對大量數據進行分布式處理,且依賴于社區服務器,因此成本較低,適用于任何人或企業。
Hadoop由多元素構成,主要有Hadoop Distributed File System(HDFS)和NameNode,前者就像一個傳統分級系統,可以創建、刪除、移動或重命名文件等;后者則是在HDFS實例中的單獨機器上運行的軟件,負責管理文件系統名稱空間和控制外部客戶機訪問。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序,且具備高可靠性、高擴展性、高效性和高容錯性。
Hadoop在實時應用程序中應用較多。可以在可用的計算機集簇見分配數據并完成計算任務,且可實現實時數據分析。Hadoop完全基于成本效益而構建的海量數據集分析,因此,這種實時應用平臺中將會更多地采用Hadoop。
Hadoop較其他大數據分析平臺優勢明顯。與MongoDB、Cassandra、Couchbase和其他NoSQL具有顯著區別。與相互割裂的處理方式不同的是,Hadoop提供了統一海量的API(包括MapReduce、查詢語言和數據庫訪問,而且更易于整合各種領先的分析和搜索平臺),能夠與現有的生態系統擴展提供更為豐富的服務。
Hadoop支持多語言編寫框架。帶有Java語言編寫框架,適合運行在Linux系統平臺,同樣可以使用其他語言編寫,比如C++。Hadoop結構化查詢語言技能和人才的積累,將驅動對SQL的支持,比如HiveQL和DrQL, 就是其中可以幫助Hadoop訪問大規模SQL社區的工具。
HBase成為大文件主流平臺,是Hadoop的開源、非關系型分布式數據模型。這些二進制大型對象包括圖片、音頻等多媒體對象,它們要求有支持快速檢索的大型數據倉庫。
硬件會針對Hadoop進行優化。Hadoop不僅僅是一個強大分布式數據處理平臺,而且在企業數據中心也會根據Hadoop進行部署、整合方面的硬件優化。如近日,英特爾在美國推出Distribution for Apache Hadoop軟件,旨在提供業內領先的性能和安全特性。
英特爾正式交付在Apache Hadoop之上構建的創新開放平臺,它能夠與大數據分析的快速演進保持同步。Intel Distribution在英特爾至強處理器內置安全特性的支持下,率先提供了全加密功能,再結合Hadoop分布式文件系統基于芯片的加密支持,企業用戶現可以在不影響性能的前提下更為安全地分析數據集。
英特爾至強處理器平臺對網絡和I/O技術所做的優化,也有助于實現更高的分析性能。以往分析1TB數據需要4個多小時才能完全處理完畢,現在憑借英特爾硬件與Intel Distribution軟件的強有力組合,僅需7分鐘1即可完成。
Intel Manager for Apache Hadoop軟件還簡化了系統管理員部署新應用時對于集群的部署、配置和監控。采用Intel Active Tuner來優化Apache Hadoop軟件的性能時,可通過自動化的配置實現最充分的性能調優。而在此前,這類工作要求系統管理員必須了解每個應用對系統資源的使用情況以及Hadoop的配置和性能指標。
2013年大數據時代帷幕已拉開,面臨數十億計數據、信息日益劇增,除了Hadoop平臺是企業、用戶首選之外,相信會有更多服務器/存儲和軟件廠商推出更多優化性數據解決方案。