在當前的大數據領域,隨著大數據技術的深入應用,業界對于Hadoop技術的關注也日漸高漲,就Hadoop本身而言,Hadoop的開源架構逐漸深入適應企業環境,其瘋狂的發展勢頭已無法阻擋。其全新獨特的數據管理方案正在幫助企業變革大數據存儲、處理、分析及共享的方式。
不斷發展的Hadoop技術
依托其技術優勢,Hadoop已榮膺多項大獎,但與此同時,與其真正所能提供技術能力相悖的錯誤消息及過度承諾也困擾著這項技術。在部署Hadoop技術時提出不切實際的預期需求或誤入技術認知誤區,將導致浪費時間,費用上漲,業績乏善可陳。
了解Hadoop技術能力與限制,并相應制定安裝計劃,將在未來充分發揮Hadoop技術能力。了解Hadoop技術的真相,并避開以下常見誤區,將幫助您順利部署Hadoop。
誤區一:Hadoop可替代數據倉庫
真相:Hadoop框架自身不是完整的數據或分析解決方案,也不是用作或替代數據倉庫的框架或平臺。就其自身而言,依托Hadoop技術開發高成本效益的大數據平臺解決方案,與其它數據庫共享信息,使其成為數據倉庫的完美組合。依托Hadoop技術,企業將能夠通過新的途徑充分利用各種類型的海量數據。
誤區二:Hadoop技術曇花一現
真相:Hadoop倍受青睞,其發展勢頭看上去勢不可擋,因此,它不會曇花一現。《Forrester浪潮:大數據Hadoop解決方案》(2014年一季度版)報告稱,Hadoop框架是大型企業必備的數據平臺,是未來任何靈活數據管理平臺中最重要的組成部分。為充分利用Hadoop的技術優勢,下一代數據倉庫將與Hadoop技術更深入地整合,管理規模更大,結構更復雜的數據集。
誤區三:Hadoop技術是免費的
真相:Hadoop的確是一套開源產品,所有用戶均可免費下載。但使用該技術卻并非免費,甚至需要更高的成本。高效運用Hadoop技術需要接受嚴格培訓的專業人士,而長期存儲數據亦需要高昂成本。考慮分析及多用戶因素,Hadoop技術的成本實際上要高于數據倉庫。除開源技術外,廠商還銷售支持各種功能的專用應用程序,支持并拓展Hadoop使用范圍,為企業提供更多幫助。
誤區四:Hadoop解決方案是一款數據整合工具
真相:Hadoop實際上是專為特定數據類型及負載設計的分布式文件系統。但該技術缺乏數據整合能力。如果Hadoop解決方案未能與大型數據管理生態系統結合使用,它將會成為另一個使信息相互隔離的數據孤島。一旦在數據倉庫環境下部署Hadoop技術,用戶即可查詢數據倉庫及Hadoop中的信息。
誤區五:Hadoop是單一的開源產品
真相:Hadoop是產品庫及技術庫,包括Hadoop分布式文件系統、MapReduce、Pig、Hive、Falcon、Knox等。多家廠商開發Hadoop產品,并加入具有差異化優勢的功能。例如,Hortonworks瀀湥獣臺幫助企業采集、處理并共享任意格式、任意規模的數據。并不是所有Hadoop產品都是開源的。Forrester報告稱,對Hadoop產品的需求使廠商面對競爭殘酷的市場,他們需要抓住一切機會銷售他們特有的Hadoop解決方案。
D1Net評論:
Hadoop技術的不斷發展,需要釋放全部潛能,Hadoop為大型數據集存儲及處理提供可靠的解決方案,幫助企業克服以往數據使用成本高、數據結構復雜的困難,高效利用各種類型的海量數據。雖然Hadoop技術用途廣、優勢多,但它卻無法取代數據倉庫或數據整合工具。而通過與其它數據或分析解決方案整合,反而能夠提升Hadoop技術的價值,價值的提升,也就為Hadoop的發展帶來強大動力。